Mario: Multimodales Graph Reasoning mit Large Language Models

Zusammenfassung

Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben neue Wege für multimodales Reasoning eröffnet. Dennoch stützen sich die meisten bestehenden Methoden nach wie vor auf vortrainierte Vision-Language-Modelle (VLMs), um Bild-Text-Paare isoliert zu enkodieren, und ignorieren dabei die relationale Struktur, die multimodale Daten in der realen Welt natürlicherweise bilden. Dies motiviert das Reasoning auf multimodalen Graphen (MMGs), bei dem jeder Knoten über textuelle und visuelle Attribute verfügt und Kanten strukturelle Hinweise liefern. Die Ermöglichung von LLM-basiertem Reasoning für solche heterogenen multimodalen Signale bei gleichzeitiger Bewahrung der Graphentopologie wirft zwei zentrale Herausforderungen auf: die Auflösung schwacher cross-modaler Konsistenz und den Umgang mit heterogener Modalitätspräferenz. Um dies zu adressieren, schlagen wir Mario vor, einen einheitlichen Rahmen, der beide genannten Herausforderungen gleichzeitig löst und effektives LLM-basiertes Reasoning über MMGs ermöglicht. Mario besteht aus zwei innovativen Stufen. Erstens, einem graphenkonditionierten VLM-Design, das textuelle und visuelle Merkmale gemeinsam durch feinkörniges cross-modales kontrastives Lernen, geleitet von der Graphentopologie, verfeinert. Zweitens, einem modalitätsadaptiven Graph-Instruction-Tuning-Mechanismus, der ausgerichtete multimodale Merkmale in graphenbewusste Instruktionsansichten organisiert und einen lernbaren Router einsetzt, um für jeden Knoten und seine Nachbarschaft die informativste Modalitätskonfiguration für das LLM bereitzustellen. Umfangreiche Experimente über diverse MMG-Benchmarks zeigen, dass Mario durchgängig state-of-the-art Graph-Modelle in sowohl überwachten als auch Zero-Shot-Szenarien für Knotenklassifikation und Linkvorhersage übertrifft. Der Code wird unter https://github.com/sunyuanfu/Mario verfügbar gemacht.

English

Recent advances in large language models (LLMs) have opened new avenues for multimodal reasoning. Yet, most existing methods still rely on pretrained vision-language models (VLMs) to encode image-text pairs in isolation, ignoring the relational structure that real-world multimodal data naturally form. This motivates reasoning on multimodal graphs (MMGs), where each node has textual and visual attributes and edges provide structural cues. Enabling LLM-based reasoning on such heterogeneous multimodal signals while preserving graph topology introduces two key challenges: resolving weak cross-modal consistency and handling heterogeneous modality preference. To address this, we propose Mario, a unified framework that simultaneously resolves the two above challenges and enables effective LLM-based reasoning over MMGs. Mario consists of two innovative stages. Firstly, a graph-conditioned VLM design that jointly refines textual and visual features through fine-grained cross-modal contrastive learning guided by graph topology. Secondly, a modality-adaptive graph instruction tuning mechanism that organizes aligned multimodal features into graph-aware instruction views and employs a learnable router to surface, for each node and its neighborhood, the most informative modality configuration to the LLM. Extensive experiments across diverse MMG benchmarks demonstrate that Mario consistently outperforms state-of-the-art graph models in both supervised and zero-shot scenarios for node classification and link prediction. The code will be made available at https://github.com/sunyuanfu/Mario.

Mario: Multimodales Graph Reasoning mit Large Language Models

Mario: Multimodal Graph Reasoning with Large Language Models

Zusammenfassung

Support