L^2M^3OF: Ein multimodales Großsprachmodell für metallorganische Gerüste
L^2M^3OF: A Large Language Multimodal Model for Metal-Organic Frameworks
October 23, 2025
papers.authors: Jiyu Cui, Fang Wu, Haokai Zhao, Minggao Feng, Xenophon Evangelopoulos, Andrew I. Cooper, Yejin Choi
cs.AI
papers.abstract
Große Sprachmodelle haben bemerkenswerte Fähigkeiten im logischen Denken bei verschiedenen natürlichen Sprachaufgaben demonstriert. Durchbrüche in vergleichbarem Maße bei wissenschaftlichen Entdeckungen sind jedoch begrenzter, da das Verständnis komplexer physikalischer Phänomene vielschichtige Repräsentationen erfordert, die weit über Sprache allein hinausgehen. Ein eindrückliches Beispiel ist das Design funktionaler Materialien wie MOFs (metal-organic frameworks), die entscheidend für eine Reihe von bedeutungsvollen Anwendungen wie CO₂-Abscheidung und Wasserstoffspeicherung sind. Die Navigation durch ihren riesigen und komplexen Designraum in sprachbasierten Repräsentationen, die von LLMs interpretierbar sind, ist aufgrund der zahlreichen möglichen dreidimensionalen Atomkonfigurationen und strengen retikulären Regeln der Koordinationsgeometrie und Topologie herausfordernd. Trotz vielversprechender früher Ergebnisse bei LLM-unterstützten Entdeckungen für einfachere Materialsysteme ist das MOF-Design nach wie vor stark auf implizites menschliches Fachwissen angewiesen, das selten allein in textuellen Informationen kodiert ist. Um diese Barriere zu überwinden, stellen wir L2M3OF vor, das erste multimodale LLM für MOFs. L2M3OF integriert Kristallrepräsentationslernen mit Sprachverständnis, um strukturelle, textuelle und Wissensmodalitäten gemeinsam zu verarbeiten. L2M3OF verwendet einen vortrainierten Kristall-Encoder mit einer leichten Projektionsschicht, um Strukturinformationen in einen Token-Raum zu komprimieren und so eine effiziente Ausrichtung auf Sprachinstruktionen zu ermöglichen. Um Training und Evaluation zu erleichtern, haben wir eine Struktur-Eigenschaft-Wissens-Datenbank kristalliner Materialien kuratiert und L2M3OF gegen state-of-the-art Closed-Source-LLMs wie GPT-5, Gemini-2.5-Pro und DeepSeek-R1 benchmarked. Experimente zeigen, dass L2M3OF führende textbasierte Closed-Source-LLMs bei Eigenschaftsvorhersage- und Wissensgenerierungsaufgaben übertrifft, obwohl es deutlich weniger Parameter verwendet. Diese Ergebnisse unterstreichen die Bedeutung multimodaler Ansätze für das Verständnis poröser Materialien und etablieren L2M3OF als Grundlage für KI-Systeme der nächsten Generation in der Materialentdeckung.
English
Large language models have demonstrated remarkable reasoning capabilities
across diverse natural language tasks. However, comparable breakthroughs in
scientific discovery are more limited, because understanding complex physical
phenomena demands multifaceted representations far beyond language alone. A
compelling example is the design of functional materials such as MOFs-critical
for a range of impactful applications like carbon capture and hydrogen storage.
Navigating their vast and intricate design space in language-based
representations interpretable by LLMs is challenging due to the numerous
possible three-dimensional atomic arrangements and strict reticular rules of
coordination geometry and topology. Despite promising early results in
LLM-assisted discovery for simpler materials systems, MOF design remains
heavily reliant on tacit human expertise rarely codified in textual information
alone. To overcome this barrier, we introduce L2M3OF, the first multimodal LLM
for MOFs. L2M3OF integrates crystal representation learning with language
understanding to process structural, textual, and knowledge modalities jointly.
L2M3OF employs a pre-trained crystal encoder with a lightweight projection
layer to compress structural information into a token space, enabling efficient
alignment with language instructions. To facilitate training and evaluation, we
curate a structure-property-knowledge database of crystalline materials and
benchmark L2M3OF against state-of-the-art closed-source LLMs such as GPT-5,
Gemini-2.5-Pro and DeepSeek-R1. Experiments show that L2M3OF outperforms
leading text-based closed-source LLMs in property prediction and knowledge
generation tasks, despite using far fewer parameters. These results highlight
the importance of multimodal approaches for porous material understanding and
establish L2M3OF as a foundation for next-generation AI systems in materials
discovery.