iVGR: Het internaliseren van visueel gefundeerd redeneren voor MLLMs met reinforcement learning

Samenvatting

Hoewel visueel gefundeerde Chain-of-Thought (CoT) naar voren is gekomen als een veelbelovend paradigma om fijnmazige perceptie in multimodale grote taalmodellen (MLLM's) te verbeteren, blijft de effectiviteit ervan tijdens de inferentiefase onderbelicht. In dit werk vinden we empirisch dat het verplicht stellen van expliciete objectkaders in visueel gefundeerde CoT tijdens inferentie vaak leidt tot een lagere prestatie vergeleken met standaard tekstuele CoT, die redeneert zonder expliciete visuele fundering. We veronderstellen dat het visuele lokalisatievermogen kan worden geïnternaliseerd in de tekstuele CoT en dat de verplichte expliciete fundering onnodige interferentie introduceert met het primaire doel van het model: antwoordvoorspelling. Om dit probleem aan te pakken, stellen we iVGR (Internalizing Visually Grounded Reasoning) voor, een nieuw versterkingsleerframework dat lokalisatiecapaciteiten overdraagt naar het tekstuele redeneerproces. We gebruiken een tweestromige trainingstrategie, waarbij een tekstuele stroom wordt afgestemd op een hoogwaardige visueel gefundeerde stroom via een voorgestelde consistentiebeloning, waardoor het model nauwkeurig kan lokaliseren zonder expliciete fundering tijdens inferentie. Uitgebreide experimenten tonen aan dat onze methode aanzienlijk beter presteert dan bestaande baselines op fijnmazige benchmarks, terwijl de flexibiliteit behouden blijft om tool-ondersteunde inferentiewerkstromen te ondersteunen.

English

While visually grounded Chain-of-Thought (CoT) has emerged as a promising paradigm to enhance fine-grained perception in multimodal large language models (MLLMs), its efficacy during the inference phase remains underexplored. In this work, we empirically find that mandating explicit object boxes in visually grounded CoT during inference often degrades performance compared to standard textual CoT, which reasons without explicit visual grounding. We hypothesize that the visual localization capability can be internalized into the textual CoT and that the mandatory explicit grounding introduces unnecessary interference with the model's primary objective of answer prediction. To address this problem, we propose Internalizing Visually Grounded Reasoning (iVGR), a novel reinforcement learning framework that transfers localization capabilities into the textual reasoning process. We employ a dual-stream training strategy, where a textual stream is aligned with a high-quality visually grounded stream via a proposed consistency reward, enabling the model to localize accurately without explicit grounding during inference. Extensive experiments demonstrate that our method significantly outperforms existing baselines on fine-grained benchmarks, while maintaining the flexibility to support tool-assisted inference workflows.