iVGR : Internalisation du raisonnement ancré visuellement pour les MLLMs avec apprentissage par renforcement

Résumé

Bien que la Chaîne de Pensée ancrée visuellement (CoT visuelle) soit apparue comme un paradigme prometteur pour améliorer la perception fine dans les modèles de langage multimodaux de grande taille (MLLMs), son efficacité durant la phase d'inférence reste peu explorée. Dans ce travail, nous constatons empiriquement qu'imposer des boîtes d'objets explicites dans la CoT ancrée visuellement pendant l'inférence dégrade souvent les performances par rapport à la CoT textuelle standard, qui raisonne sans ancrage visuel explicite. Nous émettons l'hypothèse que la capacité de localisation visuelle peut être internalisée dans la CoT textuelle et que l'ancrage explicite obligatoire introduit une interférence inutile avec l'objectif principal du modèle, à savoir la prédiction de réponses. Pour résoudre ce problème, nous proposons iVGR (Internalizing Visually Grounded Reasoning), un nouveau cadre d'apprentissage par renforcement qui transfère les capacités de localisation dans le processus de raisonnement textuel. Nous employons une stratégie d'entraînement à double flux, où un flux textuel est aligné avec un flux de haute qualité ancré visuellement via une récompense de cohérence proposée, permettant au modèle de localiser avec précision sans ancrage explicite pendant l'inférence. Des expériences approfondies montrent que notre méthode surpasse significativement les références existantes sur des benchmarks à granularité fine, tout en conservant la flexibilité nécessaire pour prendre en charge des flux de travail d'inférence assistés par des outils.

English

While visually grounded Chain-of-Thought (CoT) has emerged as a promising paradigm to enhance fine-grained perception in multimodal large language models (MLLMs), its efficacy during the inference phase remains underexplored. In this work, we empirically find that mandating explicit object boxes in visually grounded CoT during inference often degrades performance compared to standard textual CoT, which reasons without explicit visual grounding. We hypothesize that the visual localization capability can be internalized into the textual CoT and that the mandatory explicit grounding introduces unnecessary interference with the model's primary objective of answer prediction. To address this problem, we propose Internalizing Visually Grounded Reasoning (iVGR), a novel reinforcement learning framework that transfers localization capabilities into the textual reasoning process. We employ a dual-stream training strategy, where a textual stream is aligned with a high-quality visually grounded stream via a proposed consistency reward, enabling the model to localize accurately without explicit grounding during inference. Extensive experiments demonstrate that our method significantly outperforms existing baselines on fine-grained benchmarks, while maintaining the flexibility to support tool-assisted inference workflows.