Mario: Razonamiento Multimodal en Grafos con Modelos de Lenguaje a Gran Escala

Resumen

Los recientes avances en los modelos de lenguaje a gran escala (LLM) han abierto nuevas vías para el razonamiento multimodal. Sin embargo, la mayoría de los métodos existentes aún dependen de modelos de visión y lenguaje (VLM) preentrenados para codificar pares imagen-texto de forma aislada, ignorando la estructura relacional que los datos multimodales del mundo real forman naturalmente. Esto motiva el razonamiento sobre grafos multimodales (MMG), donde cada nodo tiene atributos textuales y visuales y las aristas proporcionan pistas estructurales. Habilitar el razonamiento basado en LLM sobre estas señales multimodales heterogéneas, preservando al mismo tiempo la topología del grafo, plantea dos desafíos clave: resolver la débil consistencia cross-modal y manejar la preferencia heterogénea por modalidad. Para abordar esto, proponemos Mario, un marco unificado que resuelve simultáneamente los dos desafíos anteriores y permite un razonamiento efectivo basado en LLM sobre MMG. Mario consta de dos etapas innovadoras. En primer lugar, un diseño de VLM condicionado por el grafo que refina conjuntamente las características textuales y visuales mediante un aprendizaje contrastivo cross-modal de grano fino guiado por la topología del grafo. En segundo lugar, un mecanismo de ajuste por instrucciones adaptativo a la modalidad que organiza las características multimodales alineadas en vistas de instrucciones conscientes del grafo y emplea un enrutador entrenable para presentar al LLM, para cada nodo y su vecindario, la configuración de modalidad más informativa. Experimentos exhaustivos en diversos benchmarks de MMG demuestran que Mario supera consistentemente a los modelos de grafos más avanzados tanto en escenarios supervisados como de cero disparos para las tareas de clasificación de nodos y predicción de enlaces. El código estará disponible en https://github.com/sunyuanfu/Mario.

English

Recent advances in large language models (LLMs) have opened new avenues for multimodal reasoning. Yet, most existing methods still rely on pretrained vision-language models (VLMs) to encode image-text pairs in isolation, ignoring the relational structure that real-world multimodal data naturally form. This motivates reasoning on multimodal graphs (MMGs), where each node has textual and visual attributes and edges provide structural cues. Enabling LLM-based reasoning on such heterogeneous multimodal signals while preserving graph topology introduces two key challenges: resolving weak cross-modal consistency and handling heterogeneous modality preference. To address this, we propose Mario, a unified framework that simultaneously resolves the two above challenges and enables effective LLM-based reasoning over MMGs. Mario consists of two innovative stages. Firstly, a graph-conditioned VLM design that jointly refines textual and visual features through fine-grained cross-modal contrastive learning guided by graph topology. Secondly, a modality-adaptive graph instruction tuning mechanism that organizes aligned multimodal features into graph-aware instruction views and employs a learnable router to surface, for each node and its neighborhood, the most informative modality configuration to the LLM. Extensive experiments across diverse MMG benchmarks demonstrate that Mario consistently outperforms state-of-the-art graph models in both supervised and zero-shot scenarios for node classification and link prediction. The code will be made available at https://github.com/sunyuanfu/Mario.

Mario: Razonamiento Multimodal en Grafos con Modelos de Lenguaje a Gran Escala

Mario: Multimodal Graph Reasoning with Large Language Models

Resumen

Support