iVGR: Internalizando Raciocínio Fundamentado Visualmente para MLLMs com Aprendizado por Reforço

Resumo

Embora o Chain-of-Thought (CoT) fundamentado visualmente tenha surgido como um paradigma promissor para aprimorar a percepção refinada em modelos de linguagem grandes multimodais (MLLMs), sua eficácia durante a fase de inferência permanece pouco explorada. Neste trabalho, constatamos empiricamente que exigir caixas delimitadoras de objetos explícitas no CoT fundamentado visualmente durante a inferência frequentemente degrada o desempenho em comparação com o CoT textual padrão, que raciocina sem fundamentação visual explícita. Hipotetizamos que a capacidade de localização visual pode ser internalizada no CoT textual e que a fundamentação explícita obrigatória introduz interferência desnecessária com o objetivo primário do modelo de predizer respostas. Para abordar esse problema, propomos o Internalizing Visually Grounded Reasoning (iVGR), uma nova estrutura de aprendizado por reforço que transfere capacidades de localização para o processo de raciocínio textual. Empregamos uma estratégia de treinamento de fluxo duplo, onde um fluxo textual é alinhado a um fluxo fundamentado visualmente de alta qualidade por meio de uma recompensa de consistência proposta, permitindo que o modelo localize com precisão sem fundamentação explícita durante a inferência. Experimentos extensos demonstram que nosso método supera significativamente as linhas de base existentes em benchmarks de percepção refinada, mantendo a flexibilidade para suportar fluxos de trabalho de inferência assistidos por ferramentas.

English

While visually grounded Chain-of-Thought (CoT) has emerged as a promising paradigm to enhance fine-grained perception in multimodal large language models (MLLMs), its efficacy during the inference phase remains underexplored. In this work, we empirically find that mandating explicit object boxes in visually grounded CoT during inference often degrades performance compared to standard textual CoT, which reasons without explicit visual grounding. We hypothesize that the visual localization capability can be internalized into the textual CoT and that the mandatory explicit grounding introduces unnecessary interference with the model's primary objective of answer prediction. To address this problem, we propose Internalizing Visually Grounded Reasoning (iVGR), a novel reinforcement learning framework that transfers localization capabilities into the textual reasoning process. We employ a dual-stream training strategy, where a textual stream is aligned with a high-quality visually grounded stream via a proposed consistency reward, enabling the model to localize accurately without explicit grounding during inference. Extensive experiments demonstrate that our method significantly outperforms existing baselines on fine-grained benchmarks, while maintaining the flexibility to support tool-assisted inference workflows.