ChatPaper.aiChatPaper

MolReFlect: Naar In-Context Fijnmazige Afstemmingen tussen Moleculen en Teksten

MolReFlect: Towards In-Context Fine-grained Alignments between Molecules and Texts

November 22, 2024
Auteurs: Jiatong Li, Yunqing Liu, Wei Liu, Jingdi Le, Di Zhang, Wenqi Fan, Dongzhan Zhou, Yuqiang Li, Qing Li
cs.AI

Samenvatting

Molecuulontdekking is een cruciaal onderzoeksgebied dat alles beïnvloedt, van de medicijnen die we nemen tot de materialen die we gebruiken. Onlangs zijn Large Language Models (LLM's) wijdverspreid aangenomen in het begrijpen en genereren van moleculen, maar de afstemming tussen moleculen en hun bijbehorende bijschriften blijft een aanzienlijke uitdaging. Vorige inspanningen behandelen de molecule vaak als een algemene SMILES-reeks of moleculaire grafiek, waarbij de fijnmazige afstemming tussen de moleculaire substructuren en de beschrijvende tekstuele zinnen wordt verwaarloosd, wat cruciaal is voor nauwkeurige en verklaarbare voorspellingen. In dit geval introduceren we MolReFlect, een nieuw leerling-leraarframework dat is ontworpen om de molecule-bijschriftafstemming op een fijnmazige manier contextueel uit te voeren. Onze aanpak maakt aanvankelijk gebruik van een grotere leraar LLM om de gedetailleerde afstemmingen te labelen door kritieke zinnen rechtstreeks uit moleculaire bijschriften of SMILES-reeksen te extraheren en deze te impliceren naar overeenkomstige substructuren of kenmerken. Om deze afstemmingen te verfijnen, stellen we In-Context Selective Reflection voor, die eerdere extractieresultaten ophaalt als contextvoorbeelden voor de leraar LLM om te reflecteren en laat een kleinere leerling LLM kiezen uit in-contextreflectie en eerdere extractieresultaten. Ten slotte verbeteren we het leerproces van de leerling LLM door middel van Chain-of-Thought In-Context Molecule Tuning, waarbij de fijnmazige afstemmingen en de redeneerprocessen binnen het Chain-of-Thought-formaat worden geïntegreerd. Onze experimentele resultaten tonen aan dat MolReFlect LLM's zoals Mistral-7B in staat stelt om aanzienlijk beter te presteren dan de vorige baselines, met het behalen van de SOTA-prestaties op de ChEBI-20 dataset. Deze vooruitgang verbetert niet alleen de generatieve mogelijkheden van LLM's in de molecule-bijschriftvertalingstaak, maar draagt ook bij aan een meer verklaarbaar kader.
English
Molecule discovery is a pivotal research field, impacting everything from the medicines we take to the materials we use. Recently, Large Language Models (LLMs) have been widely adopted in molecule understanding and generation, yet the alignments between molecules and their corresponding captions remain a significant challenge. Previous endeavours often treat the molecule as a general SMILES string or molecular graph, neglecting the fine-grained alignments between the molecular sub-structures and the descriptive textual phrases, which are crucial for accurate and explainable predictions. In this case, we introduce MolReFlect, a novel teacher-student framework designed to contextually perform the molecule-caption alignments in a fine-grained way. Our approach initially leverages a larger teacher LLM to label the detailed alignments by directly extracting critical phrases from molecule captions or SMILES strings and implying them to corresponding sub-structures or characteristics. To refine these alignments, we propose In-Context Selective Reflection, which retrieves previous extraction results as context examples for teacher LLM to reflect and lets a smaller student LLM select from in-context reflection and previous extraction results. Finally, we enhance the learning process of the student LLM through Chain-of-Thought In-Context Molecule Tuning, integrating the fine-grained alignments and the reasoning processes within the Chain-of-Thought format. Our experimental results demonstrate that MolReFlect enables LLMs like Mistral-7B to significantly outperform the previous baselines, achieving SOTA performance on the ChEBI-20 dataset. This advancement not only enhances the generative capabilities of LLMs in the molecule-caption translation task, but also contributes to a more explainable framework.

Summary

AI-Generated Summary

PDF52November 27, 2024