ChatPaper.aiChatPaper

L^2M^3OF: Крупная языковая мультимодальная модель для металло-органических каркасов

L^2M^3OF: A Large Language Multimodal Model for Metal-Organic Frameworks

October 23, 2025
Авторы: Jiyu Cui, Fang Wu, Haokai Zhao, Minggao Feng, Xenophon Evangelopoulos, Andrew I. Cooper, Yejin Choi
cs.AI

Аннотация

Крупные языковые модели продемонстрировали впечатляющие способности к рассуждению при решении разнообразных задач на естественном языке. Однако сопоставимые прорывы в области научных открытий более ограничены, поскольку понимание сложных физических явлений требует многогранных представлений, выходящих далеко за рамки одного лишь языка. Ярким примером является проектирование функциональных материалов, таких как металло-органические каркасы (МОК), которые критически важны для ряда значимых приложений, включая улавливание углерода и хранение водорода. Навигация по их обширному и сложному пространству проектирования в языковых представлениях, интерпретируемых языковыми моделями, является сложной задачей из-за многочисленных возможных трехмерных атомных конфигураций и строгих ретикулярных правил координационной геометрии и топологии. Несмотря на обнадеживающие ранние результаты в области открытий с помощью языковых моделей для более простых материаловедческих систем, проектирование МОК по-прежнему в значительной степени опирается на неявный человеческий опыт, редко формализуемый исключительно в текстовой информации. Чтобы преодолеть этот барьер, мы представляем L2M3OF — первую мультимодальную языковую модель для МОК. L2M3OF интегрирует обучение представлениям кристаллических структур с языковым пониманием для совместной обработки структурной, текстовой и знаниевой модальностей. L2M3OF использует предварительно обученный кристаллический кодировщик с легковесным проекционным слоем для сжатия структурной информации в токенное пространство, обеспечивая эффективное согласование с языковыми инструкциями. Для облегчения обучения и оценки мы создали базу данных «структура-свойство-знание» для кристаллических материалов и провели сравнительный анализ L2M3OF с передовыми проприетарными языковыми моделями, такими как GPT-5, Gemini-2.5-Pro и DeepSeek-R1. Эксперименты показывают, что L2M3OF превосходит ведущие текстовые проприетарные языковые модели в задачах прогнозирования свойств и генерации знаний, несмотря на использование значительно меньшего количества параметров. Эти результаты подчеркивают важность мультимодальных подходов для понимания пористых материалов и утверждают L2M3OF в качестве основы для систем искусственного интеллекта следующего поколения в области открытия материалов.
English
Large language models have demonstrated remarkable reasoning capabilities across diverse natural language tasks. However, comparable breakthroughs in scientific discovery are more limited, because understanding complex physical phenomena demands multifaceted representations far beyond language alone. A compelling example is the design of functional materials such as MOFs-critical for a range of impactful applications like carbon capture and hydrogen storage. Navigating their vast and intricate design space in language-based representations interpretable by LLMs is challenging due to the numerous possible three-dimensional atomic arrangements and strict reticular rules of coordination geometry and topology. Despite promising early results in LLM-assisted discovery for simpler materials systems, MOF design remains heavily reliant on tacit human expertise rarely codified in textual information alone. To overcome this barrier, we introduce L2M3OF, the first multimodal LLM for MOFs. L2M3OF integrates crystal representation learning with language understanding to process structural, textual, and knowledge modalities jointly. L2M3OF employs a pre-trained crystal encoder with a lightweight projection layer to compress structural information into a token space, enabling efficient alignment with language instructions. To facilitate training and evaluation, we curate a structure-property-knowledge database of crystalline materials and benchmark L2M3OF against state-of-the-art closed-source LLMs such as GPT-5, Gemini-2.5-Pro and DeepSeek-R1. Experiments show that L2M3OF outperforms leading text-based closed-source LLMs in property prediction and knowledge generation tasks, despite using far fewer parameters. These results highlight the importance of multimodal approaches for porous material understanding and establish L2M3OF as a foundation for next-generation AI systems in materials discovery.
PDF22December 2, 2025