ChatPaper.aiChatPaper

MolReFlect: Rumo a Alinhamentos Detalhados em Contexto entre Moléculas e Textos

MolReFlect: Towards In-Context Fine-grained Alignments between Molecules and Texts

November 22, 2024
Autores: Jiatong Li, Yunqing Liu, Wei Liu, Jingdi Le, Di Zhang, Wenqi Fan, Dongzhan Zhou, Yuqiang Li, Qing Li
cs.AI

Resumo

A descoberta de moléculas é um campo de pesquisa fundamental, impactando desde os medicamentos que tomamos até os materiais que utilizamos. Recentemente, Modelos de Linguagem Grandes (LLMs) têm sido amplamente adotados na compreensão e geração de moléculas, no entanto, as correspondências entre moléculas e suas legendas associadas continuam sendo um desafio significativo. Esforços anteriores frequentemente tratam a molécula como uma cadeia SMILES geral ou um grafo molecular, negligenciando as correspondências detalhadas entre as subestruturas moleculares e as frases textuais descritivas, que são cruciais para previsões precisas e explicáveis. Neste caso, apresentamos o MolReFlect, um novo framework professor-aluno projetado para realizar as correspondências molécula-legenda de forma detalhada e contextual. Nossa abordagem inicialmente utiliza um professor LLM maior para rotular as correspondências detalhadas, extraindo diretamente frases críticas das legendas das moléculas ou cadeias SMILES e as associando às subestruturas ou características correspondentes. Para refinar essas correspondências, propomos a Reflexão Seletiva em Contexto, que recupera resultados de extração anteriores como exemplos de contexto para o professor LLM refletir e permite que um aluno LLM menor selecione entre a reflexão em contexto e os resultados de extração anteriores. Por fim, aprimoramos o processo de aprendizado do aluno LLM por meio do Ajuste de Molécula em Contexto de Cadeia de Pensamento, integrando as correspondências detalhadas e os processos de raciocínio no formato de Cadeia de Pensamento. Nossos resultados experimentais demonstram que o MolReFlect permite que LLMs como o Mistral-7B superem significativamente os baselines anteriores, alcançando desempenho de última geração no conjunto de dados ChEBI-20. Este avanço não apenas melhora as capacidades generativas dos LLMs na tarefa de tradução molécula-legenda, mas também contribui para um framework mais explicável.
English
Molecule discovery is a pivotal research field, impacting everything from the medicines we take to the materials we use. Recently, Large Language Models (LLMs) have been widely adopted in molecule understanding and generation, yet the alignments between molecules and their corresponding captions remain a significant challenge. Previous endeavours often treat the molecule as a general SMILES string or molecular graph, neglecting the fine-grained alignments between the molecular sub-structures and the descriptive textual phrases, which are crucial for accurate and explainable predictions. In this case, we introduce MolReFlect, a novel teacher-student framework designed to contextually perform the molecule-caption alignments in a fine-grained way. Our approach initially leverages a larger teacher LLM to label the detailed alignments by directly extracting critical phrases from molecule captions or SMILES strings and implying them to corresponding sub-structures or characteristics. To refine these alignments, we propose In-Context Selective Reflection, which retrieves previous extraction results as context examples for teacher LLM to reflect and lets a smaller student LLM select from in-context reflection and previous extraction results. Finally, we enhance the learning process of the student LLM through Chain-of-Thought In-Context Molecule Tuning, integrating the fine-grained alignments and the reasoning processes within the Chain-of-Thought format. Our experimental results demonstrate that MolReFlect enables LLMs like Mistral-7B to significantly outperform the previous baselines, achieving SOTA performance on the ChEBI-20 dataset. This advancement not only enhances the generative capabilities of LLMs in the molecule-caption translation task, but also contributes to a more explainable framework.

Summary

AI-Generated Summary

PDF52November 27, 2024