마리오: 대규모 언어 모델 기반 다중모드 그래프 추론
Mario: Multimodal Graph Reasoning with Large Language Models
March 5, 2026
저자: Yuanfu Sun, Kang Li, Pengkang Guo, Jiajin Liu, Qiaoyu Tan
cs.AI
초록
대규모 언어 모델(LLM)의 최근 발전은 멀티모달 추론에 새로운 길을 열었습니다. 그러나 대부분의 기존 방법은 여전히 사전 학습된 시각-언어 모델(VLM)에 의존하여 이미지-텍스트 쌍을 개별적으로 인코딩함으로써, 실제 세계의 멀티모달 데이터가 자연스럽게 형성하는 관계적 구조를 간과하고 있습니다. 이는 각 노드가 텍스트 및 시각 속성을 가지며 에지가 구조적 단서를 제공하는 멀티모달 그래프(MMG) 상의 추론을 필요로 합니다. 그래프 토폴로지를 보존하면서 이러한 이종 멀티모달 신호에 대한 LLM 기반 추론을 가능하게 하는 것은 두 가지 주요 과제를 제기합니다: 약한 교차 모달 일관성 해결과 이종 모달 선호도 처리입니다. 이를 해결하기 위해, 우리는 상기 두 과제를 동시에 해결하고 MMG에 대한 효과적인 LLM 기반 추론을 가능하게 하는 통합 프레임워크인 Mario를 제안합니다. Mario는 두 가지 혁신적인 단계로 구성됩니다. 첫째, 그래프 토폴로지의指導를 받는 세분화된 교차 모달 대조 학습을 통해 텍스트 및 시각 특징을 공동으로 정제하는 그래프 조건 VLM 설계입니다. 둘째, 정렬된 멀티모달 특징을 그래프 인식 명령어 뷰로 구성하고, 학습 가능한 라우터를 활용하여 각 노드와 그 이웃에 대해 LLM에 가장 유익한 모달 구성을 표면화하는 모달 적응형 그래프 명령어 튜닝 메커니즘입니다. 다양한 MMG 벤치마크에 걸친 폭넓은 실험을 통해 Mario가 노드 분류 및 링크 예측 작업에서 지도 학습 및 제로샷 시나리오 모두에서 최첨단 그래프 모델을 꾸준히 능가함을 입증했습니다. 코드는 https://github.com/sunyuanfu/Mario에서 공개될 예정입니다.
English
Recent advances in large language models (LLMs) have opened new avenues for multimodal reasoning. Yet, most existing methods still rely on pretrained vision-language models (VLMs) to encode image-text pairs in isolation, ignoring the relational structure that real-world multimodal data naturally form. This motivates reasoning on multimodal graphs (MMGs), where each node has textual and visual attributes and edges provide structural cues. Enabling LLM-based reasoning on such heterogeneous multimodal signals while preserving graph topology introduces two key challenges: resolving weak cross-modal consistency and handling heterogeneous modality preference. To address this, we propose Mario, a unified framework that simultaneously resolves the two above challenges and enables effective LLM-based reasoning over MMGs. Mario consists of two innovative stages. Firstly, a graph-conditioned VLM design that jointly refines textual and visual features through fine-grained cross-modal contrastive learning guided by graph topology. Secondly, a modality-adaptive graph instruction tuning mechanism that organizes aligned multimodal features into graph-aware instruction views and employs a learnable router to surface, for each node and its neighborhood, the most informative modality configuration to the LLM. Extensive experiments across diverse MMG benchmarks demonstrate that Mario consistently outperforms state-of-the-art graph models in both supervised and zero-shot scenarios for node classification and link prediction. The code will be made available at https://github.com/sunyuanfu/Mario.