Mario: Ragionamento Grafico Multimodale con Modelli Linguistici di Grande Dimensione

Abstract

I recenti progressi nei grandi modelli linguistici (LLM) hanno aperto nuove strade per il ragionamento multimodale. Tuttavia, la maggior parte dei metodi esistenti si basa ancora su modelli visione-linguaggio (VLM) preaddestrati per codificare coppie immagine-testo in isolamento, ignorando la struttura relazionale che i dati multimodali del mondo reale formano naturalmente. Ciò motiva il ragionamento su grafi multimodali (MMG), dove ogni nodo possiede attributi testuali e visivi e gli archi forniscono indicazioni strutturali. Abilitare un ragionamento basato su LLM su tali segnali multimodali eterogenei, preservando al contempo la topologia del grafo, introduce due sfide chiave: risolvere la debole consistenza cross-modale e gestire la preferenza eterogenea per le modalità. Per affrontare ciò, proponiamo Mario, un framework unificato che risolve simultaneamente le due suddette sfide e abilita un ragionamento efficace basato su LLM sugli MMG. Mario è composto da due fasi innovative. In primo luogo, una progettazione VLM condizionata dal grafo che affina congiuntamente le caratteristiche testuali e visive attraverso un apprendimento contrastivo cross-modale di fine granularità guidato dalla topologia del grafo. In secondo luogo, un meccanismo di messa a punto delle istruzioni del grafo adattivo alla modalità, che organizza le caratteristiche multimodali allineate in viste di istruzioni consapevoli della struttura del grafo e impiega un router apprendibile per far emergere, per ogni nodo e il suo intorno, la configurazione di modalità più informativa per l'LLM. Esperimenti estesi su diversi benchmark di MMG dimostrano che Mario supera costantemente i modelli di grafo all'avanguardia sia in scenari supervisionati che zero-shot per la classificazione dei nodi e la previsione dei link. Il codice sarà reso disponibile all'indirizzo https://github.com/sunyuanfu/Mario.

English

Recent advances in large language models (LLMs) have opened new avenues for multimodal reasoning. Yet, most existing methods still rely on pretrained vision-language models (VLMs) to encode image-text pairs in isolation, ignoring the relational structure that real-world multimodal data naturally form. This motivates reasoning on multimodal graphs (MMGs), where each node has textual and visual attributes and edges provide structural cues. Enabling LLM-based reasoning on such heterogeneous multimodal signals while preserving graph topology introduces two key challenges: resolving weak cross-modal consistency and handling heterogeneous modality preference. To address this, we propose Mario, a unified framework that simultaneously resolves the two above challenges and enables effective LLM-based reasoning over MMGs. Mario consists of two innovative stages. Firstly, a graph-conditioned VLM design that jointly refines textual and visual features through fine-grained cross-modal contrastive learning guided by graph topology. Secondly, a modality-adaptive graph instruction tuning mechanism that organizes aligned multimodal features into graph-aware instruction views and employs a learnable router to surface, for each node and its neighborhood, the most informative modality configuration to the LLM. Extensive experiments across diverse MMG benchmarks demonstrate that Mario consistently outperforms state-of-the-art graph models in both supervised and zero-shot scenarios for node classification and link prediction. The code will be made available at https://github.com/sunyuanfu/Mario.

Mario: Ragionamento Grafico Multimodale con Modelli Linguistici di Grande Dimensione

Mario: Multimodal Graph Reasoning with Large Language Models

Abstract

Support