Métodos basados en computadora para la creación de bibliotecas enfocadas.
Cerebro de silicio
Hoy en día, el diseño de fármacos in silico (CADD) es utilizado por la gran mayoría de los líderes farmacéuticos, incluido ChemDiv. Aquí daremos tres ejemplos del uso de CADD para la creación de bibliotecas enfocadas.
Redes neuronales recurrentes (RNN)
Uno de los métodos CADD de rápido desarrollo involucra RNN, donde, después del entrenamiento, la red genera una salida similar a la entrada, es decir, nuevas estructuras moleculares que imitan las del conjunto de datos de aprendizaje.
En el artículo [1], la creación automatizada de bibliotecas enfocadas a través del aprendizaje por transferencia, es decir, el entrenamiento en un gran conjunto (de moléculas, en este caso, pero el concepto no se limita a ellas) primero y luego el ajuste con muestras más pequeñas para la optimización de clientes potenciales.
Después de usar un conjunto de datos ChEMBL para entrenar un RNN, se seleccionaron conjuntos de transferencia que imitan los que ocurren normalmente en el flujo de trabajo de la química médica.
De todas las métricas elegidas, dos fueron clave para evaluar el rendimiento de la red: una puntuación de novedad única y una puntuación de proximidad química.
De manera un tanto contraria a la intuición, los conjuntos de datos más pequeños requerían más entrenamiento y los más grandes estaban bien con menos ciclos. Los recuentos de fragmentos más bajos (lo que significa que había menos grupos distintos, fragmentos, en el conjunto de datos) hicieron que la unicidad fuera más baja, ya que los datos de entrenamiento eran más homogéneos.
Estos resultados se presentan en esta tabla (los números de encabezado se refieren a épocas completadas (es decir, ciclos), las celdas a cuánto de la salida, en porcentajes, tuvo un puntaje de novedad única bajo (menos de un cuarto):
Nombre del archivo
Recuento de fragmentos
5
10
12
15
17
20
DHODH lleno
66
--
1
59
91
96
100
METAP2 lleno
59
--
60
78
88
91
100
MMP-12 completo
31
33
66
80
94
99
100
P2X7 lleno
131
--
--
--
18
78
99
SLC22A12 lleno
49
--
75
83
98
100
100
subconjunto DHODH
41
--
46
62
88
98
100
subconjunto METAP2
40
--
60
76
92
100
100
Subconjunto MMP-12
22
50
80
87
97
100
100
subconjunto P2X7
64
--
34
85
95
99
100
Subconjunto SLC22A12
32
13
75
88
100
100
100
US-20090018134
33
8
58
79
91
93
99
US-20090286778
123
--
21
55
75
81
83
US-20100016279
73
--
82
97
99
100
100
US-20120157425
91
1
85
92
99
100
100
WO-2010079443
54
--
--
--
8
60
92
WO-2011075515
137
--
2
42
89
93
100
WO-2012053186
44
1
66
87
94
100
100
WO-2012067965
110
--
34
85
97
98
100
SIFt
Otra técnica común en CADD es SBF (enfoque basado en la estructura), en el que se utilizan restricciones de interacción específicas como base para diseñar nuevos compuestos químicos que podrían unirse al objetivo.
En el artículo [2], los investigadores desarrollaron un método para el análisis y la visualización de datos a gran escala: la huella digital de información estructural (SIFt). Para aprovechar la naturaleza tridimensional de las moléculas de manera más efectiva, se desarrolló r-SIFt, con 'r' refiriéndose a diferentes grupos R.
Después de ensamblar bibliotecas virtuales y acoplar poses, se encontraron descriptores bidimensionales a través de Pipeline Pilot, momento en el que se generaron r-SIFts, integrando los parámetros de unión en la huella digital. Para las 10 poses con las puntuaciones C más altas (para los inhibidores de la MAP quinasa p38), se generaron posteriormente r-SIFts y se seleccionó la mejor pose mediante el cálculo del coeficiente de Tanimoto.
Los resultados se evaluaron midiendo las precisiones predictivas de los árboles de decisión realizados con los r-SIFT producidos anteriormente.
Combinado con un conjunto de herramientas convencional, r-SIFt demostró ser una gran herramienta para la visualización que se acercó a partes particulares de la molécula. La siguiente figura muestra las formas en que los inhibidores de p38 son similares y, tras una inspección más detallada, revela las diferencias.
b es una superposición de la mejor pose de acoplamiento (c-f son inhibidores de p38, g no lo es). La estructura cocristalina de c se muestra con una línea amarilla. Los inhibidores se unen de manera similar: las partes moradas están cerca de la bisagra, las azules se concentran en el bolsillo hidrofóbico.
Estructuras y grupos R. 1-5 corresponden a c-g en la imagen anterior.
Es decir, R2 de 1 (púrpura c) tiene más contacto con la bisagra que otros, lo que es consistente con el anterior.
recomendaciones. Un trifluorobenceno R1 de 1 en comparación con un 3-fluorofenol R1 más pequeño explica el mayor grado de interacción en la región hidrófoba.
Algoritmo genético multiobjetivo
Se empleó un algoritmo genético multiobjetivo (MOGA) como base para MoSELECT, un programa que busca soluciones en el espacio virtual y presenta las conexiones entre diferentes objetivos [3].
Las tareas con muchos objetivos frecuentemente tienen diferentes líneas de soluciones, cada una de ellas con diferentes compensaciones. Un algoritmo genético estándar busca estas líneas por separado, a diferencia de MOGA, que lo hace simultáneamente, utilizando la idea de "dominancia":
La tarea es minimizar f1 y f2. Los círculos sólidos son para respuestas no dominadas, lo que significa que no hay mejores soluciones para ambos objetivos. Los puntos vacíos están dominados, y el número muestra cuántos 'dominadores' (mejores soluciones) están presentes.
Cuando se le asignó la tarea de crear una biblioteca enfocada para una molécula aleatoria de la biblioteca de 2-aminotiazol, optimizando la similitud (medida por las huellas dactilares de Daylight y el coeficiente de Tanimoto) y el costo, SELECT, que utilizó un algoritmo genético estándar, proporcionó sólo una solución unilateralmente adecuada – ya sea los promedios 0,832; US$48 289,4 o 0,696; 1 675,2. La única forma de llegar a un compromiso (elegir minuciosamente los pesos) es difícil para objetivos tan poco proporcionales. MoSELECT, en lugar de dar soluciones únicas, crea toda la familia de respuestas no dominadas y permite una elección más fácil para decidir sobre el compromiso:
La versión ampliada de la tercera figura, se muestra toda la familia de soluciones.
Conclusión
En conjunto, las técnicas in silico son una herramienta increíblemente valiosa en la industria farmacéutica.
ChemDiv ofrece servicios CADD de primera clase en el campo de la quimioinformática, que incluyen cribado virtual, acoplamiento, optimización hit2lead y otros.
Literatura
[1] Directrices para la generación molecular basada en el aprendizaje de transferencia RNN de bibliotecas enfocadas; Amabilino et al., Journal of Chemical Information and Modeling 2020, 60, 12, 5699–5713
[2] Diseño basado en el conocimiento de bibliotecas enfocadas en objetivos utilizando proteína - interacción ligando