L²M³OF: Um Modelo Multimodal de Linguagem de Grande Porte para Estruturas Metalorgânicas
L^2M^3OF: A Large Language Multimodal Model for Metal-Organic Frameworks
October 23, 2025
Autores: Jiyu Cui, Fang Wu, Haokai Zhao, Minggao Feng, Xenophon Evangelopoulos, Andrew I. Cooper, Yejin Choi
cs.AI
Resumo
Os grandes modelos de linguagem demonstraram capacidades notáveis de raciocínio em diversas tarefas de linguagem natural. No entanto, avanços comparáveis na descoberta científica são mais limitados, pois a compreensão de fenômenos físicos complexos exige representações multifacetadas que vão muito além da linguagem. Um exemplo convincente é o projeto de materiais funcionais, como as MOFs (Metal-Organic Frameworks) – cruciais para aplicações impactantes como captura de carbono e armazenamento de hidrogênio. Navegar por seu vasto e intrincado espaço de projeto usando representações baseadas em linguagem interpretáveis por LLMs é desafiador devido aos numerosos arranjos atômicos tridimensionais possíveis e às regras reticulares rigorosas de geometria e topologia de coordenação. Apesar de resultados iniciais promissores na descoberta assistida por LLMs para sistemas de materiais mais simples, o projeto de MOFs ainda depende fortemente de expertise humana tácita, raramente codificada apenas em informações textuais. Para superar essa barreira, apresentamos o L2M3OF, o primeiro LLM multimodal para MOFs. O L2M3OF integra o aprendizado de representação de cristais com a compreensão de linguagem para processar conjuntamente modalidades estruturais, textuais e de conhecimento. O L2M3OF emprega um codificador de cristal pré-treinado com uma camada de projeção leve para comprimir informações estruturais em um espaço de tokens, permitindo um alinhamento eficiente com instruções de linguagem. Para facilitar o treinamento e a avaliação, organizamos um banco de dados estrutura-propriedade-conhecimento de materiais cristalinos e comparamos o L2M3OF com LLMs proprietários de última geração, como GPT-5, Gemini-2.5-Pro e DeepSeek-R1. Experimentos mostram que o L2M3OF supera os principais LLMs proprietários baseados em texto em tarefas de previsão de propriedades e geração de conhecimento, apesar de usar muito menos parâmetros. Esses resultados destacam a importância de abordagens multimodais para a compreensão de materiais porosos e estabelecem o L2M3OF como uma base para sistemas de IA de próxima geração na descoberta de materiais.
English
Large language models have demonstrated remarkable reasoning capabilities
across diverse natural language tasks. However, comparable breakthroughs in
scientific discovery are more limited, because understanding complex physical
phenomena demands multifaceted representations far beyond language alone. A
compelling example is the design of functional materials such as MOFs-critical
for a range of impactful applications like carbon capture and hydrogen storage.
Navigating their vast and intricate design space in language-based
representations interpretable by LLMs is challenging due to the numerous
possible three-dimensional atomic arrangements and strict reticular rules of
coordination geometry and topology. Despite promising early results in
LLM-assisted discovery for simpler materials systems, MOF design remains
heavily reliant on tacit human expertise rarely codified in textual information
alone. To overcome this barrier, we introduce L2M3OF, the first multimodal LLM
for MOFs. L2M3OF integrates crystal representation learning with language
understanding to process structural, textual, and knowledge modalities jointly.
L2M3OF employs a pre-trained crystal encoder with a lightweight projection
layer to compress structural information into a token space, enabling efficient
alignment with language instructions. To facilitate training and evaluation, we
curate a structure-property-knowledge database of crystalline materials and
benchmark L2M3OF against state-of-the-art closed-source LLMs such as GPT-5,
Gemini-2.5-Pro and DeepSeek-R1. Experiments show that L2M3OF outperforms
leading text-based closed-source LLMs in property prediction and knowledge
generation tasks, despite using far fewer parameters. These results highlight
the importance of multimodal approaches for porous material understanding and
establish L2M3OF as a foundation for next-generation AI systems in materials
discovery.