MolReFlect : Vers des Alignements Fine-grained en Contexte entre Molécules et Textes
MolReFlect: Towards In-Context Fine-grained Alignments between Molecules and Texts
November 22, 2024
Auteurs: Jiatong Li, Yunqing Liu, Wei Liu, Jingdi Le, Di Zhang, Wenqi Fan, Dongzhan Zhou, Yuqiang Li, Qing Li
cs.AI
Résumé
La découverte de molécules est un domaine de recherche essentiel, ayant un impact sur tout, des médicaments que nous prenons aux matériaux que nous utilisons. Récemment, les Grands Modèles de Langage (GML) ont été largement adoptés dans la compréhension et la génération de molécules, cependant, les alignements entre les molécules et leurs légendes correspondantes restent un défi significatif. Les efforts précédents considéraient souvent la molécule comme une chaîne SMILES générale ou un graphe moléculaire, négligeant les alignements détaillés entre les sous-structures moléculaires et les phrases textuelles descriptives, qui sont essentiels pour des prédictions précises et explicables. Dans ce cas, nous introduisons MolReFlect, un nouveau cadre enseignant-élève conçu pour effectuer contextuellement les alignements molécule-légende de manière détaillée. Notre approche exploite initialement un plus grand enseignant GML pour étiqueter les alignements détaillés en extrayant directement des phrases critiques des légendes de molécules ou des chaînes SMILES et en les appliquant aux sous-structures ou caractéristiques correspondantes. Pour affiner ces alignements, nous proposons une Réflexion Sélective en Contexte, qui récupère les résultats d'extraction précédents en tant qu'exemples de contexte pour que l'enseignant GML réfléchisse et permet à un plus petit élève GML de choisir parmi la réflexion en contexte et les résultats d'extraction précédents. Enfin, nous améliorons le processus d'apprentissage de l'élève GML grâce à un Accord en Chaîne de Pensée en Contexte pour l'Accord Moléculaire, intégrant les alignements détaillés et les processus de raisonnement dans le format de Chaîne de Pensée. Nos résultats expérimentaux démontrent que MolReFlect permet aux GML comme Mistral-7B de surpasser significativement les baselines précédentes, atteignant des performances de pointe sur l'ensemble de données ChEBI-20. Cette avancée non seulement améliore les capacités génératives des GML dans la tâche de traduction molécule-légende, mais contribue également à un cadre plus explicatif.
English
Molecule discovery is a pivotal research field, impacting everything from the
medicines we take to the materials we use. Recently, Large Language Models
(LLMs) have been widely adopted in molecule understanding and generation, yet
the alignments between molecules and their corresponding captions remain a
significant challenge. Previous endeavours often treat the molecule as a
general SMILES string or molecular graph, neglecting the fine-grained
alignments between the molecular sub-structures and the descriptive textual
phrases, which are crucial for accurate and explainable predictions. In this
case, we introduce MolReFlect, a novel teacher-student framework designed to
contextually perform the molecule-caption alignments in a fine-grained way. Our
approach initially leverages a larger teacher LLM to label the detailed
alignments by directly extracting critical phrases from molecule captions or
SMILES strings and implying them to corresponding sub-structures or
characteristics. To refine these alignments, we propose In-Context Selective
Reflection, which retrieves previous extraction results as context examples for
teacher LLM to reflect and lets a smaller student LLM select from in-context
reflection and previous extraction results. Finally, we enhance the learning
process of the student LLM through Chain-of-Thought In-Context Molecule Tuning,
integrating the fine-grained alignments and the reasoning processes within the
Chain-of-Thought format. Our experimental results demonstrate that MolReFlect
enables LLMs like Mistral-7B to significantly outperform the previous
baselines, achieving SOTA performance on the ChEBI-20 dataset. This advancement
not only enhances the generative capabilities of LLMs in the molecule-caption
translation task, but also contributes to a more explainable framework.Summary
AI-Generated Summary