L^2M^3OF: Un Modelo Multimodal de Lenguaje a Gran Escala para las Estructuras Metal-Orgánicas
L^2M^3OF: A Large Language Multimodal Model for Metal-Organic Frameworks
October 23, 2025
Autores: Jiyu Cui, Fang Wu, Haokai Zhao, Minggao Feng, Xenophon Evangelopoulos, Andrew I. Cooper, Yejin Choi
cs.AI
Resumen
Los grandes modelos de lenguaje han demostrado capacidades de razonamiento notables en diversas tareas de lenguaje natural. Sin embargo, los avances comparables en el descubrimiento científico son más limitados, ya que la comprensión de fenómenos físicos complejos requiere representaciones multifacéticas que van mucho más allá del lenguaje por sí solo. Un ejemplo convincente es el diseño de materiales funcionales como las MOF, críticos para aplicaciones de impacto como la captura de carbono y el almacenamiento de hidrógeno. Navegar por su vasto e intrincado espacio de diseño mediante representaciones basadas en lenguaje interpretables por LLM es un desafío debido a las numerosas disposiciones atómicas tridimensionales posibles y las estrictas reglas reticulares de la geometría y topología de coordinación. A pesar de los prometedores resultados iniciales en el descubrimiento asistido por LLM para sistemas de materiales más simples, el diseño de MOF sigue dependiendo en gran medida de la experiencia humana tácita, raramente codificada únicamente en información textual. Para superar esta barrera, presentamos L2M3OF, el primer LLM multimodal para MOF. L2M3OF integra el aprendizaje de representaciones cristalinas con la comprensión del lenguaje para procesar conjuntamente las modalidades estructural, textual y de conocimiento. L2M3OF emplea un codificador de cristales preentrenado con una capa de proyección ligera para comprimir la información estructural en un espacio de tokens, permitiendo una alineación eficiente con instrucciones de lenguaje. Para facilitar el entrenamiento y la evaluación, hemos creado una base de datos de estructura-propiedad-conocimiento de materiales cristalinos y comparamos L2M3OF con LLM cerrados de última generación como GPT-5, Gemini-2.5-Pro y DeepSeek-R1. Los experimentos muestran que L2M3OF supera a los principales LLM cerrados basados en texto en tareas de predicción de propiedades y generación de conocimiento, a pesar de utilizar muchos menos parámetros. Estos resultados subrayan la importancia de los enfoques multimodales para la comprensión de materiales porosos y establecen a L2M3OF como una base para los sistemas de IA de próxima generación en el descubrimiento de materiales.
English
Large language models have demonstrated remarkable reasoning capabilities
across diverse natural language tasks. However, comparable breakthroughs in
scientific discovery are more limited, because understanding complex physical
phenomena demands multifaceted representations far beyond language alone. A
compelling example is the design of functional materials such as MOFs-critical
for a range of impactful applications like carbon capture and hydrogen storage.
Navigating their vast and intricate design space in language-based
representations interpretable by LLMs is challenging due to the numerous
possible three-dimensional atomic arrangements and strict reticular rules of
coordination geometry and topology. Despite promising early results in
LLM-assisted discovery for simpler materials systems, MOF design remains
heavily reliant on tacit human expertise rarely codified in textual information
alone. To overcome this barrier, we introduce L2M3OF, the first multimodal LLM
for MOFs. L2M3OF integrates crystal representation learning with language
understanding to process structural, textual, and knowledge modalities jointly.
L2M3OF employs a pre-trained crystal encoder with a lightweight projection
layer to compress structural information into a token space, enabling efficient
alignment with language instructions. To facilitate training and evaluation, we
curate a structure-property-knowledge database of crystalline materials and
benchmark L2M3OF against state-of-the-art closed-source LLMs such as GPT-5,
Gemini-2.5-Pro and DeepSeek-R1. Experiments show that L2M3OF outperforms
leading text-based closed-source LLMs in property prediction and knowledge
generation tasks, despite using far fewer parameters. These results highlight
the importance of multimodal approaches for porous material understanding and
establish L2M3OF as a foundation for next-generation AI systems in materials
discovery.