Predicción precisa de afinidades de interacción ligando-proteína con modelos de lenguaje pequeños ajustados finamente

Resumen

Describimos la predicción precisa de afinidades de interacción ligando-proteína (LPI), también conocidas como interacciones fármaco-diana (DTI), utilizando modelos de lenguaje pequeños (SLMs) generativos preentrenados y ajustados mediante instrucciones. Logramos predicciones precisas para un rango de valores de afinidad asociados con interacciones ligando-proteína en datos fuera de la muestra en un entorno de predicción zero-shot. Solo se utilizaron la cadena SMILES del ligando y la secuencia de aminoácidos de la proteína como entradas del modelo. Nuestros resultados demuestran una mejora clara sobre los métodos basados en aprendizaje automático (ML) y perturbación de energía libre (FEP+) en la predicción precisa de un rango de afinidades de interacción ligando-proteína, lo cual puede aprovecharse para acelerar aún más las campañas de descubrimiento de fármacos contra objetivos terapéuticos desafiantes.

English

We describe the accurate prediction of ligand-protein interaction (LPI) affinities, also known as drug-target interactions (DTI), with instruction fine-tuned pretrained generative small language models (SLMs). We achieved accurate predictions for a range of affinity values associated with ligand-protein interactions on out-of-sample data in a zero-shot setting. Only the SMILES string of the ligand and the amino acid sequence of the protein were used as the model inputs. Our results demonstrate a clear improvement over machine learning (ML) and free-energy perturbation (FEP+) based methods in accurately predicting a range of ligand-protein interaction affinities, which can be leveraged to further accelerate drug discovery campaigns against challenging therapeutic targets.

Predicción precisa de afinidades de interacción ligando-proteína con modelos de lenguaje pequeños ajustados finamente

Accurate Prediction of Ligand-Protein Interaction Affinities with Fine-Tuned Small Language Models

Resumen

Support