L^2M^3OF: Un Modello Multimodale di Grande Linguaggio per i Framework Metallorganici
L^2M^3OF: A Large Language Multimodal Model for Metal-Organic Frameworks
October 23, 2025
Autori: Jiyu Cui, Fang Wu, Haokai Zhao, Minggao Feng, Xenophon Evangelopoulos, Andrew I. Cooper, Yejin Choi
cs.AI
Abstract
I grandi modelli linguistici hanno dimostrato notevoli capacità di ragionamento in un'ampia gamma di compiti di linguaggio naturale. Tuttavia, progressi paragonabili nella scoperta scientifica sono più limitati, poiché la comprensione di fenomeni fisici complessi richiede rappresentazioni multifaccettate che vanno ben oltre il solo linguaggio. Un esempio emblematico è la progettazione di materiali funzionali come le MOF, fondamentali per applicazioni di impatto come la cattura del carbonio e lo stoccaggio dell'idrogeno. Esplorare il loro vasto e intricato spazio di progettazione attraverso rappresentazioni basate sul linguaggio interpretabili dai LLM è impegnativo a causa dei numerosi possibili arrangiamenti atomici tridimensionali e delle rigide regole reticolari della geometria e topologia di coordinazione. Nonostante i promettenti risultati iniziali nella scoperta assistita da LLM per sistemi di materiali più semplici, la progettazione di MOF rimane fortemente dipendente dall'esperienza umana tacita, raramente codificata nella sola informazione testuale. Per superare questa barriera, introduciamo L2M3OF, il primo LLM multimodale per le MOF. L2M3OF integra l'apprendimento di rappresentazioni cristalline con la comprensione del linguaggio per elaborare congiuntamente le modalità strutturali, testuali e di conoscenza. L2M3OF utilizza un codificatore di cristalli pre-addestrato con un livello di proiezione leggero per comprimere le informazioni strutturali in uno spazio di token, consentendo un allineamento efficiente con le istruzioni linguistiche. Per facilitare l'addestramento e la valutazione, abbiamo curato un database struttura-proprietà-conoscenza di materiali cristallini e confrontato L2M3OF con LLM closed-source all'avanguardia come GPT-5, Gemini-2.5-Pro e DeepSeek-R1. Gli esperimenti mostrano che L2M3OF supera i principali LLM closed-source basati su testo nelle attività di previsione delle proprietà e generazione di conoscenza, nonostante utilizzi un numero di parametri molto inferiore. Questi risultati evidenziano l'importanza degli approcci multimodali per la comprensione dei materiali porosi e stabiliscono L2M3OF come base per i sistemi di IA di prossima generazione nella scoperta di materiali.
English
Large language models have demonstrated remarkable reasoning capabilities
across diverse natural language tasks. However, comparable breakthroughs in
scientific discovery are more limited, because understanding complex physical
phenomena demands multifaceted representations far beyond language alone. A
compelling example is the design of functional materials such as MOFs-critical
for a range of impactful applications like carbon capture and hydrogen storage.
Navigating their vast and intricate design space in language-based
representations interpretable by LLMs is challenging due to the numerous
possible three-dimensional atomic arrangements and strict reticular rules of
coordination geometry and topology. Despite promising early results in
LLM-assisted discovery for simpler materials systems, MOF design remains
heavily reliant on tacit human expertise rarely codified in textual information
alone. To overcome this barrier, we introduce L2M3OF, the first multimodal LLM
for MOFs. L2M3OF integrates crystal representation learning with language
understanding to process structural, textual, and knowledge modalities jointly.
L2M3OF employs a pre-trained crystal encoder with a lightweight projection
layer to compress structural information into a token space, enabling efficient
alignment with language instructions. To facilitate training and evaluation, we
curate a structure-property-knowledge database of crystalline materials and
benchmark L2M3OF against state-of-the-art closed-source LLMs such as GPT-5,
Gemini-2.5-Pro and DeepSeek-R1. Experiments show that L2M3OF outperforms
leading text-based closed-source LLMs in property prediction and knowledge
generation tasks, despite using far fewer parameters. These results highlight
the importance of multimodal approaches for porous material understanding and
establish L2M3OF as a foundation for next-generation AI systems in materials
discovery.