Mario: Multimodaal Grafisch Redeneren met Grote Taalmodellen

Samenvatting

Recente vooruitgang in grote taalmmodellen (LLM's) heeft nieuwe mogelijkheden geopend voor multimodale redenering. Toch vertrouwen de meeste bestaande methoden nog steeds op vooraf getrainde visie-taalmodellen (VLM's) om beeld-tekstparen geïsoleerd te coderen, waarbij de relationele structuur die multimodale gegevens in de echte wereld van nature vormen, wordt genegeerd. Dit motiveert redeneren op multimodale grafieken (MMG's), waarbij elke node tekstuele en visuele attributen heeft en edges structurele aanwijzingen bieden. Het mogelijk maken van op LLM's gebaseerde redenering op dergelijke heterogene multimodale signalen, met behoud van grafiektopologie, introduceert twee belangrijke uitdagingen: het oplossen van zwakke cross-modale consistentie en het omgaan met heterogene modaliteitsvoorkeur. Om dit aan te pakken, stellen we Mario voor, een uniform raamwerk dat gelijktijdig de twee bovengenoemde uitdagingen oplost en effectieve op LLM's gebaseerde redenering over MMG's mogelijk maakt. Mario bestaat uit twee innovatieve fasen. Ten eerste een op grafiek geconditioneerd VLM-ontwerp dat tekstuele en visuele kenmerken gezamenlijk verfijnt door fijnmazig contrastief leren tussen modaliteiten, geleid door de grafiektopologie. Ten tweede een modaliteitsadaptief mechanisme voor grafiekinstructie-afstemming dat uitgelijnde multimodale kenmerken organiseert in grafiekbewuste instructieweergaven en een leerbare router gebruikt om voor elke node en zijn omgeving de meest informatieve modaliteitsconfiguratie naar de LLM te sturen. Uitgebreide experimenten op diverse MMG-benchmarks tonen aan dat Mario consequent superieure prestaties levert vergeleken met state-of-the-art grafiekmodellen in zowel begeleide als zero-shot scenario's voor nodeclassificatie en linkvoorspelling. De code zal beschikbaar worden gesteld op https://github.com/sunyuanfu/Mario.

English

Recent advances in large language models (LLMs) have opened new avenues for multimodal reasoning. Yet, most existing methods still rely on pretrained vision-language models (VLMs) to encode image-text pairs in isolation, ignoring the relational structure that real-world multimodal data naturally form. This motivates reasoning on multimodal graphs (MMGs), where each node has textual and visual attributes and edges provide structural cues. Enabling LLM-based reasoning on such heterogeneous multimodal signals while preserving graph topology introduces two key challenges: resolving weak cross-modal consistency and handling heterogeneous modality preference. To address this, we propose Mario, a unified framework that simultaneously resolves the two above challenges and enables effective LLM-based reasoning over MMGs. Mario consists of two innovative stages. Firstly, a graph-conditioned VLM design that jointly refines textual and visual features through fine-grained cross-modal contrastive learning guided by graph topology. Secondly, a modality-adaptive graph instruction tuning mechanism that organizes aligned multimodal features into graph-aware instruction views and employs a learnable router to surface, for each node and its neighborhood, the most informative modality configuration to the LLM. Extensive experiments across diverse MMG benchmarks demonstrate that Mario consistently outperforms state-of-the-art graph models in both supervised and zero-shot scenarios for node classification and link prediction. The code will be made available at https://github.com/sunyuanfu/Mario.

Mario: Multimodaal Grafisch Redeneren met Grote Taalmodellen

Mario: Multimodal Graph Reasoning with Large Language Models

Samenvatting

Support