L^2M^3OF : Un grand modèle linguistique multimodal pour les réseaux métallo-organiques
L^2M^3OF: A Large Language Multimodal Model for Metal-Organic Frameworks
October 23, 2025
papers.authors: Jiyu Cui, Fang Wu, Haokai Zhao, Minggao Feng, Xenophon Evangelopoulos, Andrew I. Cooper, Yejin Choi
cs.AI
papers.abstract
Les grands modèles de langage ont démontré des capacités de raisonnement remarquables dans diverses tâches de traitement du langage naturel. Cependant, les avancées comparables en découverte scientifique restent plus limitées, car la compréhension des phénomènes physiques complexes nécessite des représentations multidimensionnelles qui vont bien au-delà du seul langage. Un exemple frappant est la conception de matériaux fonctionnels comme les MOF - essentiels pour des applications importantes telles que la capture du carbone et le stockage de l'hydrogène. Parcourir leur vaste espace de conception complexe via des représentations langagières interprétables par les LLM s'avère difficile en raison des nombreuses configurations atomiques tridimensionnelles possibles et des règles réticulaires strictes de géométrie de coordination et de topologie. Malgré des résultats initiaux prometteurs dans la découverte assistée par LLM pour des systèmes matériels plus simples, la conception des MOF reste fortement tributaire de l'expertise humaine tacite rarement codifiée dans la seule information textuelle. Pour surmonter cette limite, nous présentons L2M3OF, le premier LLM multimodal dédié aux MOF. L2M3OF intègre l'apprentissage de représentation cristalline avec la compréhension du langage pour traiter conjointement les modalités structurelles, textuelles et de connaissances. L2M3OF utilise un encodeur de cristal pré-entraîné avec une couche de projection légère pour compresser l'information structurelle dans un espace de tokens, permettant un alignement efficace avec les instructions langagières. Pour faciliter l'entraînement et l'évaluation, nous avons constitué une base de données structure-propriété-connaissances sur les matériaux cristallins et comparé L2M3OF aux LLM propriétaires state-of-the-art tels que GPT-5, Gemini-2.5-Pro et DeepSeek-R1. Les expériences montrent que L2M3OF surpasse les principaux LLM propriétaires basés sur le texte dans les tâches de prédiction de propriétés et de génération de connaissances, malgré l'utilisation de bien moins de paramètres. Ces résultats soulignent l'importance des approches multimodales pour la compréhension des matériaux poreux et établissent L2M3OF comme une base pour les systèmes d'IA de nouvelle génération en découverte de matériaux.
English
Large language models have demonstrated remarkable reasoning capabilities
across diverse natural language tasks. However, comparable breakthroughs in
scientific discovery are more limited, because understanding complex physical
phenomena demands multifaceted representations far beyond language alone. A
compelling example is the design of functional materials such as MOFs-critical
for a range of impactful applications like carbon capture and hydrogen storage.
Navigating their vast and intricate design space in language-based
representations interpretable by LLMs is challenging due to the numerous
possible three-dimensional atomic arrangements and strict reticular rules of
coordination geometry and topology. Despite promising early results in
LLM-assisted discovery for simpler materials systems, MOF design remains
heavily reliant on tacit human expertise rarely codified in textual information
alone. To overcome this barrier, we introduce L2M3OF, the first multimodal LLM
for MOFs. L2M3OF integrates crystal representation learning with language
understanding to process structural, textual, and knowledge modalities jointly.
L2M3OF employs a pre-trained crystal encoder with a lightweight projection
layer to compress structural information into a token space, enabling efficient
alignment with language instructions. To facilitate training and evaluation, we
curate a structure-property-knowledge database of crystalline materials and
benchmark L2M3OF against state-of-the-art closed-source LLMs such as GPT-5,
Gemini-2.5-Pro and DeepSeek-R1. Experiments show that L2M3OF outperforms
leading text-based closed-source LLMs in property prediction and knowledge
generation tasks, despite using far fewer parameters. These results highlight
the importance of multimodal approaches for porous material understanding and
establish L2M3OF as a foundation for next-generation AI systems in materials
discovery.