Mario: Raciocínio em Grafos Multimodais com Modelos de Linguagem de Grande Escala

Resumo

Os recentes avanços em grandes modelos de linguagem (LLMs) abriram novas perspetivas para o raciocínio multimodal. No entanto, a maioria dos métodos existentes ainda depende de modelos visão-linguagem (VLMs) pré-treinados para codificar pares imagem-texto de forma isolada, ignorando a estrutura relacional que os dados multimodais do mundo real formam naturalmente. Isto motiva o raciocínio sobre grafos multimodais (MMGs), onde cada nó possui atributos textuais e visuais e as arestas fornecem pistas estruturais. Permitir o raciocínio baseado em LLMs sobre estes sinais multimodais heterogéneos, preservando a topologia do grafo, introduz dois desafios principais: resolver a fraca consistência cross-modal e lidar com a preferência heterogénea de modalidade. Para enfrentar isto, propomos o Mario, uma estrutura unificada que resolve simultaneamente os dois desafios acima e permite um raciocínio eficaz baseado em LLMs sobre MMGs. O Mario consiste em duas etapas inovadoras. Primeiro, um desenho de VLM condicionado por grafo que refina conjuntamente características textuais e visuais através de aprendizagem contrastiva cross-modal de alto granularidade guiada pela topologia do grafo. Segundo, um mecanismo de afinação de instruções de grafo adaptativo à modalidade que organiza características multimodais alinhadas em vistas de instrução conscientes do grafo e emprega um router aprendível para apresentar, para cada nó e a sua vizinhança, a configuração de modalidade mais informativa para o LLM. Experiências extensas em diversos benchmarks de MMGs demonstram que o Mario supera consistentemente os modelos de grafo state-of-the-art tanto em cenários supervisionados como zero-shot para classificação de nós e previsão de ligações. O código estará disponível em https://github.com/sunyuanfu/Mario.

English

Recent advances in large language models (LLMs) have opened new avenues for multimodal reasoning. Yet, most existing methods still rely on pretrained vision-language models (VLMs) to encode image-text pairs in isolation, ignoring the relational structure that real-world multimodal data naturally form. This motivates reasoning on multimodal graphs (MMGs), where each node has textual and visual attributes and edges provide structural cues. Enabling LLM-based reasoning on such heterogeneous multimodal signals while preserving graph topology introduces two key challenges: resolving weak cross-modal consistency and handling heterogeneous modality preference. To address this, we propose Mario, a unified framework that simultaneously resolves the two above challenges and enables effective LLM-based reasoning over MMGs. Mario consists of two innovative stages. Firstly, a graph-conditioned VLM design that jointly refines textual and visual features through fine-grained cross-modal contrastive learning guided by graph topology. Secondly, a modality-adaptive graph instruction tuning mechanism that organizes aligned multimodal features into graph-aware instruction views and employs a learnable router to surface, for each node and its neighborhood, the most informative modality configuration to the LLM. Extensive experiments across diverse MMG benchmarks demonstrate that Mario consistently outperforms state-of-the-art graph models in both supervised and zero-shot scenarios for node classification and link prediction. The code will be made available at https://github.com/sunyuanfu/Mario.

Mario: Raciocínio em Grafos Multimodais com Modelos de Linguagem de Grande Escala

Mario: Multimodal Graph Reasoning with Large Language Models

Resumo

Support