MolReFlect: 分子とテキスト間の文脈に即した微細なアラインメントに向けて
MolReFlect: Towards In-Context Fine-grained Alignments between Molecules and Texts
November 22, 2024
著者: Jiatong Li, Yunqing Liu, Wei Liu, Jingdi Le, Di Zhang, Wenqi Fan, Dongzhan Zhou, Yuqiang Li, Qing Li
cs.AI
要旨
分子の発見は、私たちが服用する薬から使用する材料まで、あらゆるものに影響を与える重要な研究分野です。最近、大規模言語モデル(LLMs)が分子の理解と生成に広く採用されていますが、分子とそれに対応するキャプションとの整合性は依然として重要な課題です。従来の取り組みでは、分子を一般的なSMILES文字列や分子グラフとして扱い、分子の微細な部分構造と説明的なテキストフレーズとの整合性を無視してきました。これは、正確で説明可能な予測には重要です。この場合、私たちは、分子キャプションとの微細な整合性を文脈的に行うために設計された新しい師弟フレームワークであるMolReFlectを紹介します。私たちのアプローチは、最初により大きな師となるLLMを活用して、分子キャプションやSMILES文字列から重要なフレーズを直接抽出し、それらを対応する部分構造や特性に適用することで、詳細な整合性をラベル付けします。これらの整合性を洗練するために、In-Context Selective Reflectionを提案し、以前の抽出結果を師となるLLMに反映させ、小さな弟となるLLMが文脈反映と以前の抽出結果から選択できるようにします。最後に、Chain-of-Thought In-Context Molecule Tuningを介して、弟となるLLMの学習プロセスを強化し、Chain-of-Thought形式内で微細な整合性と推論プロセスを統合します。私たちの実験結果は、MolReFlectがMistral-7BなどのLLMsを前のベースラインを大幅に上回るようにし、ChEBI-20データセットでSOTAのパフォーマンスを達成することを示しています。この進歩は、分子キャプション翻訳のタスクにおけるLLMsの生成能力を向上させるだけでなく、より説明可能なフレームワークに貢献しています。
English
Molecule discovery is a pivotal research field, impacting everything from the
medicines we take to the materials we use. Recently, Large Language Models
(LLMs) have been widely adopted in molecule understanding and generation, yet
the alignments between molecules and their corresponding captions remain a
significant challenge. Previous endeavours often treat the molecule as a
general SMILES string or molecular graph, neglecting the fine-grained
alignments between the molecular sub-structures and the descriptive textual
phrases, which are crucial for accurate and explainable predictions. In this
case, we introduce MolReFlect, a novel teacher-student framework designed to
contextually perform the molecule-caption alignments in a fine-grained way. Our
approach initially leverages a larger teacher LLM to label the detailed
alignments by directly extracting critical phrases from molecule captions or
SMILES strings and implying them to corresponding sub-structures or
characteristics. To refine these alignments, we propose In-Context Selective
Reflection, which retrieves previous extraction results as context examples for
teacher LLM to reflect and lets a smaller student LLM select from in-context
reflection and previous extraction results. Finally, we enhance the learning
process of the student LLM through Chain-of-Thought In-Context Molecule Tuning,
integrating the fine-grained alignments and the reasoning processes within the
Chain-of-Thought format. Our experimental results demonstrate that MolReFlect
enables LLMs like Mistral-7B to significantly outperform the previous
baselines, achieving SOTA performance on the ChEBI-20 dataset. This advancement
not only enhances the generative capabilities of LLMs in the molecule-caption
translation task, but also contributes to a more explainable framework.Summary
AI-Generated Summary