L^2M^3OF: Een groot multimodaal taalmodel voor metaal-organische roosters
L^2M^3OF: A Large Language Multimodal Model for Metal-Organic Frameworks
October 23, 2025
Auteurs: Jiyu Cui, Fang Wu, Haokai Zhao, Minggao Feng, Xenophon Evangelopoulos, Andrew I. Cooper, Yejin Choi
cs.AI
Samenvatting
Grote taalmodellen hebben opmerkelijke redeneervaardigheden getoond bij uiteenlopende natuurlijke-taaltaken. Vergelijkbare doorbraken in wetenschappelijke ontdekkingen blijven echter beperkter, omdat het begrijpen van complexe fysische verschijnselen veelzijdige representaties vereist die ver voorbij alleen taal gaan. Een sprekend voorbeeld is het ontwerp van functionele materialen zoals MOF's - cruciaal voor toepassingen zoals koolstofafvang en waterstofopslag. Het navigeren door hun uitgestrekte en ingewikkelde ontwerpruimte in op taal gebaseerde representaties die door LLM's interpreteerbaar zijn, is uitdagend vanwege de talloze mogelijke driedimensionale atomaire rangschikkingen en strikte reticulaire regels voor coördinatiegeometrie en topologie. Ondanks veelbelovende vroege resultaten in LLM-gestuurde ontdekking voor eenvoudigere materialsystemen, blijft MOF-ontwerp sterk afhankelijk van impliciete menselijke expertise die zelden alleen in tekstuele informatie is vastgelegd. Om deze barrière te overwinnen, introduceren we L2M3OF, het eerste multimodale LLM voor MOF's. L2M3OF integreert kristalrepresentatieleren met taalbegrip om structurele, tekstuele en kennismodaliteiten gezamenlijk te verwerken. L2M3OF gebruikt een vooraf getrainde kristalencoder met een lichtgewicht projectielaag om structurele informatie te comprimeren naar een tokenruimte, wat efficiënte afstemming met taal-instructies mogelijk maakt. Om training en evaluatie te vergemakkelijken, hebben we een structuur-eigenschap-kennisdatabase van kristallijne materialen samengesteld en vergelijken we L2M3OF met state-of-the-art closed-source LLM's zoals GPT-5, Gemini-2.5-Pro en DeepSeek-R1. Experimenten tonen aan dat L2M3OF toonaangevende op tekst gebaseerde closed-source LLM's overtreft in eigenschapvoorspelling- en kennisgeneratietaken, ondanks het gebruik van aanzienlijk minder parameters. Deze resultaten onderstrepen het belang van multimodale benaderingen voor het begrip van poreuze materialen en vestigen L2M3OF als fundament voor AI-systemen van de volgende generatie in materiaalontdekking.
English
Large language models have demonstrated remarkable reasoning capabilities
across diverse natural language tasks. However, comparable breakthroughs in
scientific discovery are more limited, because understanding complex physical
phenomena demands multifaceted representations far beyond language alone. A
compelling example is the design of functional materials such as MOFs-critical
for a range of impactful applications like carbon capture and hydrogen storage.
Navigating their vast and intricate design space in language-based
representations interpretable by LLMs is challenging due to the numerous
possible three-dimensional atomic arrangements and strict reticular rules of
coordination geometry and topology. Despite promising early results in
LLM-assisted discovery for simpler materials systems, MOF design remains
heavily reliant on tacit human expertise rarely codified in textual information
alone. To overcome this barrier, we introduce L2M3OF, the first multimodal LLM
for MOFs. L2M3OF integrates crystal representation learning with language
understanding to process structural, textual, and knowledge modalities jointly.
L2M3OF employs a pre-trained crystal encoder with a lightweight projection
layer to compress structural information into a token space, enabling efficient
alignment with language instructions. To facilitate training and evaluation, we
curate a structure-property-knowledge database of crystalline materials and
benchmark L2M3OF against state-of-the-art closed-source LLMs such as GPT-5,
Gemini-2.5-Pro and DeepSeek-R1. Experiments show that L2M3OF outperforms
leading text-based closed-source LLMs in property prediction and knowledge
generation tasks, despite using far fewer parameters. These results highlight
the importance of multimodal approaches for porous material understanding and
establish L2M3OF as a foundation for next-generation AI systems in materials
discovery.