ChatPaper.aiChatPaper

L^2M^3OF: 금속-유기 골격체를 위한 대규모 언어 멀티모달 모델

L^2M^3OF: A Large Language Multimodal Model for Metal-Organic Frameworks

October 23, 2025
저자: Jiyu Cui, Fang Wu, Haokai Zhao, Minggao Feng, Xenophon Evangelopoulos, Andrew I. Cooper, Yejin Choi
cs.AI

초록

대규모 언어 모델은 다양한 자연어 처리 과제에서 뛰어난 추론 능력을 입증해왔습니다. 그러나 과학적 발견 분야에서 이에 상응하는 혁신은 더 제한적입니다. 왜냐하면 복잡한 물리적 현상을 이해하려면 언어만으로는 부족한 다각적 표현이 필요하기 때문입니다. 대표적인 사례가 탄소 포집 및 수소 저장 등 중요한 응용 분야에 필수적인 MOF(금속-유기 골격체)와 같은 기능성 소재 설계입니다. LLM이 해석할 수 있는 언어 기반 표현으로 MOF의 방대하고 복잡한 설계 공간을 탐색하는 것은 수많은 가능한 3차원 원자 배열과 배위 기하학 및 위상수학의 엄격한 그물망 규칙으로 인해 어려운 과제입니다. 더 단순한 물질 시스템에서 LLM 지원 발견의 초기 성과가 기대를 모으고 있지만, MOF 설계는 여전히 텍스트 정보만으로는 체계화되기 어려운 암묵적 인간 전문성에 크게 의존하고 있습니다. 이러한 장벽을 극복하기 위해 우리는 MOF 최초의 다중모달 LLM인 L2M3OF를 소개합니다. L2M3OF는 구조적, 텍스트, 지식 모달리티를 공동으로 처리하기 위해 결정 표현 학습과 언어 이해를 통합합니다. L2M3OF는 사전 훈련된 결정 인코더와 경량 투사 계층을 사용하여 구조 정보를 토큰 공간으로 압축함으로써 언어 지시어와의 효율적인 정렬을 가능하게 합니다. 훈련과 평가를 위해 우리는 결정성 소재의 구조-물성-지식 데이터베이스를 구축하고 L2M3OF를 GPT-5, Gemini-2.5-Pro, DeepSeek-R1과 같은 최첨단 독점 LLM과 성능을 비교했습니다. 실험 결과, L2M3OF는 매개변수 수가 훨씬 적음에도 불구하고 물성 예측 및 지식 생성 과제에서 선도적인 텍스트 기반 독점 LLM들을 능가하는 것으로 나타났습니다. 이러한 결과는 다공성 물질 이해를 위한 다중모달 접근법의 중요성을 강조하며, 소재 발견 분야 차세대 AI 시스템의 기반으로서 L2M3OF의 위상을 확립합니다.
English
Large language models have demonstrated remarkable reasoning capabilities across diverse natural language tasks. However, comparable breakthroughs in scientific discovery are more limited, because understanding complex physical phenomena demands multifaceted representations far beyond language alone. A compelling example is the design of functional materials such as MOFs-critical for a range of impactful applications like carbon capture and hydrogen storage. Navigating their vast and intricate design space in language-based representations interpretable by LLMs is challenging due to the numerous possible three-dimensional atomic arrangements and strict reticular rules of coordination geometry and topology. Despite promising early results in LLM-assisted discovery for simpler materials systems, MOF design remains heavily reliant on tacit human expertise rarely codified in textual information alone. To overcome this barrier, we introduce L2M3OF, the first multimodal LLM for MOFs. L2M3OF integrates crystal representation learning with language understanding to process structural, textual, and knowledge modalities jointly. L2M3OF employs a pre-trained crystal encoder with a lightweight projection layer to compress structural information into a token space, enabling efficient alignment with language instructions. To facilitate training and evaluation, we curate a structure-property-knowledge database of crystalline materials and benchmark L2M3OF against state-of-the-art closed-source LLMs such as GPT-5, Gemini-2.5-Pro and DeepSeek-R1. Experiments show that L2M3OF outperforms leading text-based closed-source LLMs in property prediction and knowledge generation tasks, despite using far fewer parameters. These results highlight the importance of multimodal approaches for porous material understanding and establish L2M3OF as a foundation for next-generation AI systems in materials discovery.
PDF22December 2, 2025