L^2M^3OF: 金属-有機構造体のための大規模言語マルチモーダルモデル
L^2M^3OF: A Large Language Multimodal Model for Metal-Organic Frameworks
October 23, 2025
著者: Jiyu Cui, Fang Wu, Haokai Zhao, Minggao Feng, Xenophon Evangelopoulos, Andrew I. Cooper, Yejin Choi
cs.AI
要旨
大規模言語モデルは、多様な自然言語タスクにおいて顕著な推論能力を実証している。しかし、科学的発見における同等の飛躍はより限定的である。なぜなら、複雑な物理現象の理解には、言語のみならず多面的な表現が求められるためだ。その好例が、二酸化炭素回収や水素貯蔵といった影響力のある応用分野で重要なMOF(金属有機骨格)のような機能性材料の設計である。LLMが解釈可能な言語ベースの表現で、その広大で複雑な設計空間を探索することは、無数の可能な3次元原子配列や、配位幾何学・トポロジーの厳格な網目構造規則により困難を極める。より単純な材料システムにおけるLLM支援発見の有望な初期成果にもかかわらず、MOF設計は依然として、テキスト情報のみではほとんど体系化されない暗黙的な人的専門知識に大きく依存している。この障壁を克服するため、我々はMOF向け初のマルチモーダルLLMであるL2M3OFを提案する。L2M3OFは結晶表現学習と言語理解を統合し、構造的、テキスト的、知識的モダリティを共同で処理する。L2M3OFは、事前学習済み結晶エンコーダと軽量な投影層を用いて構造情報をトークン空間に圧縮し、言語指示との効率的な連携を可能にする。訓練と評価を容易にするため、我々は結晶性材料の構造-物性-知識データベースを構築し、L2M3OFをGPT-5、Gemini-2.5-Pro、DeepSeek-R1といった最先端のクローズドソースLLMと比較評価した。実験の結果、L2M3OFは、はるかに少ないパラメータ数にもかかわらず、物性予測と知識生成タスクにおいて主要なテキストベースのクローズドソースLLMを凌駕することを示した。これらの結果は、多孔性材料の理解におけるマルチモーダルアプローチの重要性を強調し、材料発見における次世代AIシステムの基盤としてL2M3OFを確立するものである。
English
Large language models have demonstrated remarkable reasoning capabilities
across diverse natural language tasks. However, comparable breakthroughs in
scientific discovery are more limited, because understanding complex physical
phenomena demands multifaceted representations far beyond language alone. A
compelling example is the design of functional materials such as MOFs-critical
for a range of impactful applications like carbon capture and hydrogen storage.
Navigating their vast and intricate design space in language-based
representations interpretable by LLMs is challenging due to the numerous
possible three-dimensional atomic arrangements and strict reticular rules of
coordination geometry and topology. Despite promising early results in
LLM-assisted discovery for simpler materials systems, MOF design remains
heavily reliant on tacit human expertise rarely codified in textual information
alone. To overcome this barrier, we introduce L2M3OF, the first multimodal LLM
for MOFs. L2M3OF integrates crystal representation learning with language
understanding to process structural, textual, and knowledge modalities jointly.
L2M3OF employs a pre-trained crystal encoder with a lightweight projection
layer to compress structural information into a token space, enabling efficient
alignment with language instructions. To facilitate training and evaluation, we
curate a structure-property-knowledge database of crystalline materials and
benchmark L2M3OF against state-of-the-art closed-source LLMs such as GPT-5,
Gemini-2.5-Pro and DeepSeek-R1. Experiments show that L2M3OF outperforms
leading text-based closed-source LLMs in property prediction and knowledge
generation tasks, despite using far fewer parameters. These results highlight
the importance of multimodal approaches for porous material understanding and
establish L2M3OF as a foundation for next-generation AI systems in materials
discovery.