iVGR: Internalisierung visuell verankerten Schließens für MLLMs mit Bestärkendem Lernen

Zusammenfassung

Obwohl visuell gestützte Chain-of-Thought (CoT) sich als vielversprechendes Paradigma zur Verbesserung der feinkörnigen Wahrnehmung in multimodalen großen Sprachmodellen (MLLMs) etabliert hat, bleibt ihre Wirksamkeit während der Inferenzphase noch weitgehend unerforscht. In dieser Arbeit stellen wir empirisch fest, dass die Vorgabe expliziter Objektboxen in visuell gestützter CoT während der Inferenz die Leistung im Vergleich zu standardmäßiger textueller CoT, die ohne explizite visuelle Verankerung argumentiert, oft verschlechtert. Wir stellen die Hypothese auf, dass die visuelle Lokalisierungsfähigkeit in die textuelle CoT internalisiert werden kann und dass die zwingende explizite Verankerung unnötige Störungen des primären Ziels des Modells – der Antwortvorhersage – verursacht. Um dieses Problem zu adressieren, schlagen wir Internalizing Visually Grounded Reasoning (iVGR) vor, ein neuartiges Reinforcement-Learning-Framework, das Lokalisierungsfähigkeiten in den textuellen Denkprozess überträgt. Wir verwenden eine Dual-Stream-Trainingsstrategie, bei der ein textueller Stream mit einem qualitativ hochwertigen visuell gestützten Stream über eine vorgeschlagene Konsistenzbelohnung abgeglichen wird, sodass das Modell während der Inferenz ohne explizite Verankerung präzise lokalisieren kann. Umfangreiche Experimente zeigen, dass unsere Methode auf feinkörnigen Benchmarks bestehende Basislinien deutlich übertrifft, während die Flexibilität erhalten bleibt, werkzeugunterstützte Inferenzabläufe zu unterstützen.

English

While visually grounded Chain-of-Thought (CoT) has emerged as a promising paradigm to enhance fine-grained perception in multimodal large language models (MLLMs), its efficacy during the inference phase remains underexplored. In this work, we empirically find that mandating explicit object boxes in visually grounded CoT during inference often degrades performance compared to standard textual CoT, which reasons without explicit visual grounding. We hypothesize that the visual localization capability can be internalized into the textual CoT and that the mandatory explicit grounding introduces unnecessary interference with the model's primary objective of answer prediction. To address this problem, we propose Internalizing Visually Grounded Reasoning (iVGR), a novel reinforcement learning framework that transfers localization capabilities into the textual reasoning process. We employ a dual-stream training strategy, where a textual stream is aligned with a high-quality visually grounded stream via a proposed consistency reward, enabling the model to localize accurately without explicit grounding during inference. Extensive experiments demonstrate that our method significantly outperforms existing baselines on fine-grained benchmarks, while maintaining the flexibility to support tool-assisted inference workflows.