iVGR: Интернализация визуально обоснованных рассуждений для MLLMs с помощью обучения с подкреплением

Аннотация

В то время как визуально обоснованное цепочка рассуждений (Visually Grounded Chain-of-Thought, CoT) зарекомендовала себя как перспективная парадигма для улучшения тонкозернистого восприятия в мультимодальных больших языковых моделях (MLLMs), ее эффективность на этапе вывода остается малоизученной. В данной работе мы эмпирически обнаружили, что требование явных ограничивающих рамок объектов в визуально обоснованном CoT во время вывода часто ухудшает производительность по сравнению со стандартным текстовым CoT, который выполняет рассуждения без явной визуальной привязки. Мы выдвигаем гипотезу, что способность к визуальной локализации может быть интернализована в текстовое CoT, а обязательное явное обоснование создает избыточные помехи для основной цели модели — предсказания ответа. Для решения этой проблемы мы предлагаем iVGR (Internalizing Visually Grounded Reasoning) — новую структуру обучения с подкреплением, которая переносит способности локализации в процесс текстовых рассуждений. Мы используем стратегию двухпоточного обучения, где текстовый поток согласуется с высококачественным визуально обоснованным потоком с помощью предложенного вознаграждения за согласованность, что позволяет модели выполнять точную локализацию без явного обоснования во время вывода. Обширные эксперименты демонстрируют, что наш метод значительно превосходит существующие базовые подходы на тонкозернистых бенчмарках, сохраняя при этом гибкость для поддержки рабочих процессов вывода с использованием инструментов.

English

While visually grounded Chain-of-Thought (CoT) has emerged as a promising paradigm to enhance fine-grained perception in multimodal large language models (MLLMs), its efficacy during the inference phase remains underexplored. In this work, we empirically find that mandating explicit object boxes in visually grounded CoT during inference often degrades performance compared to standard textual CoT, which reasons without explicit visual grounding. We hypothesize that the visual localization capability can be internalized into the textual CoT and that the mandatory explicit grounding introduces unnecessary interference with the model's primary objective of answer prediction. To address this problem, we propose Internalizing Visually Grounded Reasoning (iVGR), a novel reinforcement learning framework that transfers localization capabilities into the textual reasoning process. We employ a dual-stream training strategy, where a textual stream is aligned with a high-quality visually grounded stream via a proposed consistency reward, enabling the model to localize accurately without explicit grounding during inference. Extensive experiments demonstrate that our method significantly outperforms existing baselines on fine-grained benchmarks, while maintaining the flexibility to support tool-assisted inference workflows.