MolReFlect: Naar In-Context Fijnmazige Afstemmingen tussen Moleculen en Teksten
MolReFlect: Towards In-Context Fine-grained Alignments between Molecules and Texts
November 22, 2024
Auteurs: Jiatong Li, Yunqing Liu, Wei Liu, Jingdi Le, Di Zhang, Wenqi Fan, Dongzhan Zhou, Yuqiang Li, Qing Li
cs.AI
Samenvatting
Molecuulontdekking is een cruciaal onderzoeksgebied dat alles beïnvloedt, van de medicijnen die we nemen tot de materialen die we gebruiken. Onlangs zijn Large Language Models (LLM's) wijdverspreid aangenomen in het begrijpen en genereren van moleculen, maar de afstemming tussen moleculen en hun bijbehorende bijschriften blijft een aanzienlijke uitdaging. Vorige inspanningen behandelen de molecule vaak als een algemene SMILES-reeks of moleculaire grafiek, waarbij de fijnmazige afstemming tussen de moleculaire substructuren en de beschrijvende tekstuele zinnen wordt verwaarloosd, wat cruciaal is voor nauwkeurige en verklaarbare voorspellingen. In dit geval introduceren we MolReFlect, een nieuw leerling-leraarframework dat is ontworpen om de molecule-bijschriftafstemming op een fijnmazige manier contextueel uit te voeren. Onze aanpak maakt aanvankelijk gebruik van een grotere leraar LLM om de gedetailleerde afstemmingen te labelen door kritieke zinnen rechtstreeks uit moleculaire bijschriften of SMILES-reeksen te extraheren en deze te impliceren naar overeenkomstige substructuren of kenmerken. Om deze afstemmingen te verfijnen, stellen we In-Context Selective Reflection voor, die eerdere extractieresultaten ophaalt als contextvoorbeelden voor de leraar LLM om te reflecteren en laat een kleinere leerling LLM kiezen uit in-contextreflectie en eerdere extractieresultaten. Ten slotte verbeteren we het leerproces van de leerling LLM door middel van Chain-of-Thought In-Context Molecule Tuning, waarbij de fijnmazige afstemmingen en de redeneerprocessen binnen het Chain-of-Thought-formaat worden geïntegreerd. Onze experimentele resultaten tonen aan dat MolReFlect LLM's zoals Mistral-7B in staat stelt om aanzienlijk beter te presteren dan de vorige baselines, met het behalen van de SOTA-prestaties op de ChEBI-20 dataset. Deze vooruitgang verbetert niet alleen de generatieve mogelijkheden van LLM's in de molecule-bijschriftvertalingstaak, maar draagt ook bij aan een meer verklaarbaar kader.
English
Molecule discovery is a pivotal research field, impacting everything from the
medicines we take to the materials we use. Recently, Large Language Models
(LLMs) have been widely adopted in molecule understanding and generation, yet
the alignments between molecules and their corresponding captions remain a
significant challenge. Previous endeavours often treat the molecule as a
general SMILES string or molecular graph, neglecting the fine-grained
alignments between the molecular sub-structures and the descriptive textual
phrases, which are crucial for accurate and explainable predictions. In this
case, we introduce MolReFlect, a novel teacher-student framework designed to
contextually perform the molecule-caption alignments in a fine-grained way. Our
approach initially leverages a larger teacher LLM to label the detailed
alignments by directly extracting critical phrases from molecule captions or
SMILES strings and implying them to corresponding sub-structures or
characteristics. To refine these alignments, we propose In-Context Selective
Reflection, which retrieves previous extraction results as context examples for
teacher LLM to reflect and lets a smaller student LLM select from in-context
reflection and previous extraction results. Finally, we enhance the learning
process of the student LLM through Chain-of-Thought In-Context Molecule Tuning,
integrating the fine-grained alignments and the reasoning processes within the
Chain-of-Thought format. Our experimental results demonstrate that MolReFlect
enables LLMs like Mistral-7B to significantly outperform the previous
baselines, achieving SOTA performance on the ChEBI-20 dataset. This advancement
not only enhances the generative capabilities of LLMs in the molecule-caption
translation task, but also contributes to a more explainable framework.Summary
AI-Generated Summary