Mario : Raisonnement multimodal sur graphes avec les grands modèles de langage

Résumé

Les récentes avancées des grands modèles de langage (LLM) ont ouvert de nouvelles voies pour le raisonnement multimodal. Cependant, la plupart des méthodes existantes reposent encore sur des modèles vision-langage (VLM) pré-entraînés pour encoder des paires image-texte de manière isolée, ignorant la structure relationnelle que forment naturellement les données multimodales du monde réel. Ce constat motive le raisonnement sur des graphes multimodaux (MMG), où chaque nœud possède des attributs textuels et visuels et où les arêtes fournissent des indices structurels. Permettre un raisonnement basé sur les LLM à partir de ces signaux multimodaux hétérogènes tout en préservant la topologie du graphe introduit deux défis majeurs : résoudre la faible cohérence intermodale et gérer la préférence de modalité hétérogène. Pour y remédier, nous proposons Mario, un cadre unifié qui résout simultanément ces deux défis et permet un raisonnement efficace basé sur les LLM sur les MMG. Mario se compose de deux étapes innovantes. Premièrement, une conception de VLM conditionné par le graphe qui affine conjointement les caractéristiques textuelles et visuelles via un apprentissage contrastif intermodal à grain fin guidé par la topologie du graphe. Deuxièmement, un mécanisme d'ajustement par instruction graphique adaptatif aux modalités qui organise les caractéristiques multimodales alignées en vues d'instruction sensibles au graphe et utilise un routeur apprenant pour présenter au LLM, pour chaque nœud et son voisinage, la configuration de modalité la plus informative. Des expériences approfondies sur divers benchmarks de MMG démontrent que Mario surpasse constamment les modèles de graphes de l'état de l'art dans des scénarios supervisés et zero-shot pour la classification de nœuds et la prédiction de liens. Le code sera disponible à l'adresse https://github.com/sunyuanfu/Mario.

English

Recent advances in large language models (LLMs) have opened new avenues for multimodal reasoning. Yet, most existing methods still rely on pretrained vision-language models (VLMs) to encode image-text pairs in isolation, ignoring the relational structure that real-world multimodal data naturally form. This motivates reasoning on multimodal graphs (MMGs), where each node has textual and visual attributes and edges provide structural cues. Enabling LLM-based reasoning on such heterogeneous multimodal signals while preserving graph topology introduces two key challenges: resolving weak cross-modal consistency and handling heterogeneous modality preference. To address this, we propose Mario, a unified framework that simultaneously resolves the two above challenges and enables effective LLM-based reasoning over MMGs. Mario consists of two innovative stages. Firstly, a graph-conditioned VLM design that jointly refines textual and visual features through fine-grained cross-modal contrastive learning guided by graph topology. Secondly, a modality-adaptive graph instruction tuning mechanism that organizes aligned multimodal features into graph-aware instruction views and employs a learnable router to surface, for each node and its neighborhood, the most informative modality configuration to the LLM. Extensive experiments across diverse MMG benchmarks demonstrate that Mario consistently outperforms state-of-the-art graph models in both supervised and zero-shot scenarios for node classification and link prediction. The code will be made available at https://github.com/sunyuanfu/Mario.

Mario : Raisonnement multimodal sur graphes avec les grands modèles de langage

Mario: Multimodal Graph Reasoning with Large Language Models

Résumé

Support