Марио: Мультимодальные графовые рассуждения с использованием больших языковых моделей

Аннотация

Последние достижения в области больших языковых моделей (LLM) открыли новые возможности для мультимодальных рассуждений. Однако большинство существующих методов по-прежнему полагаются на предобученные визуально-языковые модели (VLM) для раздельного кодирования пар «изображение-текст», игнорируя реляционную структуру, которую данные в реальном мире естественным образом формируют. Это мотивирует проведение рассуждений на мультимодальных графах (MMG), где каждый узел обладает текстовыми и визуальными атрибутами, а рёбра предоставляют структурные подсказки. Обеспечение рассуждений на основе LLM для таких гетерогенных мультимодальных сигналов с сохранением топологии графа сталкивается с двумя ключевыми проблемами: разрешением слабой кросс-модальной согласованности и обработкой гетерогенных предпочтений модальностей. Для решения этих задач мы предлагаем Mario — унифицированную архитектуру, которая одновременно решает две указанные проблемы и обеспечивает эффективные рассуждения на основе LLM над MMG. Архитектура Mario состоит из двух инновационных этапов. Во-первых, это проектирование граф-обусловленной VLM, которая совместно уточняет текстовые и визуальные признаки посредством тонкого кросс-модального контрастного обучения, направляемого топологией графа. Во-вторых, это механизм модально-адаптивной граф-инструктивной настройки, который организует выровненные мультимодальные признаки в граф-ориентированные инструктивные представления и использует обучаемый маршрутизатор для выбора, для каждого узла и его окрестности, наиболее информативной конфигурации модальностей для LLM. Многочисленные эксперименты на различных наборах данных MMG демонстрируют, что Mario стабильно превосходит современные графовые модели как в контролируемых сценариях, так и в сценариях с нулевым разгоном для задач классификации узлов и предсказания связей. Код будет доступен по адресу https://github.com/sunyuanfu/Mario.

English

Recent advances in large language models (LLMs) have opened new avenues for multimodal reasoning. Yet, most existing methods still rely on pretrained vision-language models (VLMs) to encode image-text pairs in isolation, ignoring the relational structure that real-world multimodal data naturally form. This motivates reasoning on multimodal graphs (MMGs), where each node has textual and visual attributes and edges provide structural cues. Enabling LLM-based reasoning on such heterogeneous multimodal signals while preserving graph topology introduces two key challenges: resolving weak cross-modal consistency and handling heterogeneous modality preference. To address this, we propose Mario, a unified framework that simultaneously resolves the two above challenges and enables effective LLM-based reasoning over MMGs. Mario consists of two innovative stages. Firstly, a graph-conditioned VLM design that jointly refines textual and visual features through fine-grained cross-modal contrastive learning guided by graph topology. Secondly, a modality-adaptive graph instruction tuning mechanism that organizes aligned multimodal features into graph-aware instruction views and employs a learnable router to surface, for each node and its neighborhood, the most informative modality configuration to the LLM. Extensive experiments across diverse MMG benchmarks demonstrate that Mario consistently outperforms state-of-the-art graph models in both supervised and zero-shot scenarios for node classification and link prediction. The code will be made available at https://github.com/sunyuanfu/Mario.

Марио: Мультимодальные графовые рассуждения с использованием больших языковых моделей

Mario: Multimodal Graph Reasoning with Large Language Models

Аннотация

Support