ChatPaper.aiChatPaper

MolReFlect: Auf dem Weg zu kontextbezogenen Feinkorn-Alignments zwischen Molekülen und Texten

MolReFlect: Towards In-Context Fine-grained Alignments between Molecules and Texts

November 22, 2024
Autoren: Jiatong Li, Yunqing Liu, Wei Liu, Jingdi Le, Di Zhang, Wenqi Fan, Dongzhan Zhou, Yuqiang Li, Qing Li
cs.AI

Zusammenfassung

Die Entdeckung von Molekülen ist ein entscheidendes Forschungsfeld, das alles beeinflusst, von den Medikamenten, die wir einnehmen, bis zu den Materialien, die wir verwenden. In letzter Zeit wurden große Sprachmodelle (Large Language Models, LLMs) weit verbreitet bei der molekularen Analyse und Generierung eingesetzt, doch die Zuordnungen zwischen Molekülen und ihren entsprechenden Bildunterschriften bleiben eine bedeutende Herausforderung. Frühere Bemühungen behandeln das Molekül oft als allgemeinen SMILES-String oder molekularen Graphen und vernachlässigen dabei die feinkörnigen Zuordnungen zwischen den molekularen Teilstrukturen und den beschreibenden Textphrasen, die für genaue und erklärliche Vorhersagen entscheidend sind. In diesem Fall stellen wir MolReFlect vor, ein neuartiges Lehrer-Schüler-Framework, das darauf abzielt, die Molekül-Bildunterschriften-Zuordnungen kontextuell auf feinkörnige Weise durchzuführen. Unser Ansatz nutzt zunächst ein größeres Lehrer-LLM, um die detaillierten Zuordnungen zu kennzeichnen, indem kritische Phrasen direkt aus Molekül-Bildunterschriften oder SMILES-Strings extrahiert und den entsprechenden Teilstrukturen oder Merkmalen zugeordnet werden. Zur Verfeinerung dieser Zuordnungen schlagen wir In-Context Selective Reflection vor, das vorherige Extraktionsergebnisse als Kontextbeispiele für das Lehrer-LLM abruft, um zu reflektieren, und lässt ein kleineres Schüler-LLM aus der in-Kontext-Reflexion und den vorherigen Extraktionsergebnissen auswählen. Schließlich verbessern wir den Lernprozess des Schüler-LLM durch Chain-of-Thought In-Context Molecule Tuning, indem wir die feinkörnigen Zuordnungen und die Denkprozesse im Chain-of-Thought-Format integrieren. Unsere experimentellen Ergebnisse zeigen, dass MolReFlect es LLMs wie Mistral-7B ermöglicht, die bisherigen Baselines signifikant zu übertreffen und eine Spitzenleistung auf dem ChEBI-20-Datensatz zu erzielen. Dieser Fortschritt verbessert nicht nur die generativen Fähigkeiten von LLMs bei der Molekül-Bildunterschriften-Übersetzungsaufgabe, sondern trägt auch zu einem erklärbaren Rahmen bei.
English
Molecule discovery is a pivotal research field, impacting everything from the medicines we take to the materials we use. Recently, Large Language Models (LLMs) have been widely adopted in molecule understanding and generation, yet the alignments between molecules and their corresponding captions remain a significant challenge. Previous endeavours often treat the molecule as a general SMILES string or molecular graph, neglecting the fine-grained alignments between the molecular sub-structures and the descriptive textual phrases, which are crucial for accurate and explainable predictions. In this case, we introduce MolReFlect, a novel teacher-student framework designed to contextually perform the molecule-caption alignments in a fine-grained way. Our approach initially leverages a larger teacher LLM to label the detailed alignments by directly extracting critical phrases from molecule captions or SMILES strings and implying them to corresponding sub-structures or characteristics. To refine these alignments, we propose In-Context Selective Reflection, which retrieves previous extraction results as context examples for teacher LLM to reflect and lets a smaller student LLM select from in-context reflection and previous extraction results. Finally, we enhance the learning process of the student LLM through Chain-of-Thought In-Context Molecule Tuning, integrating the fine-grained alignments and the reasoning processes within the Chain-of-Thought format. Our experimental results demonstrate that MolReFlect enables LLMs like Mistral-7B to significantly outperform the previous baselines, achieving SOTA performance on the ChEBI-20 dataset. This advancement not only enhances the generative capabilities of LLMs in the molecule-caption translation task, but also contributes to a more explainable framework.

Summary

AI-Generated Summary

PDF52November 27, 2024