ChatPaper.aiChatPaper

Raisonnement visuel haute résolution via apprentissage par renforcement multi-tours basé sur l'ancrage

High-Resolution Visual Reasoning via Multi-Turn Grounding-Based Reinforcement Learning

July 8, 2025
papers.authors: Xinyu Huang, Yuhao Dong, Weiwei Tian, Bo Li, Rui Feng, Ziwei Liu
cs.AI

papers.abstract

Les modèles multimodaux de grande taille (LMM) de pointe rencontrent des difficultés lors du traitement d'images haute résolution, car ces entrées sont converties en un nombre considérable de tokens visuels, dont beaucoup sont sans rapport avec la tâche en aval. Dans cet article, nous proposons l'Optimisation de Politique basée sur l'Ancrage Multi-tours (MGPO), un cadre d'apprentissage par renforcement (RL) de bout en bout qui permet aux LMM de se concentrer itérativement sur les régions visuelles clés en recadrant automatiquement des sous-images, en se basant sur les coordonnées d'ancrage prédites par le modèle dans un cadre de conversation multi-tours. Par rapport au réglage fin supervisé (SFT), qui nécessite des annotations d'ancrage supplémentaires coûteuses, notre approche met en évidence que les LMM peuvent développer des capacités d'ancrage robustes pendant le processus d'entraînement RL, en exploitant uniquement une fonction de récompense binaire dérivée de la justesse de la réponse finale. De plus, nous observons que les LMM ont du mal à déclencher de manière autonome l'ancrage visuel pendant le processus de déploiement. Pour résoudre ce problème de démarrage à froid, nous concevons un modèle de conversation multi-tours et limitons le calcul de la perte de politique aux sorties du modèle générées sur plusieurs tours de dialogue, favorisant ainsi une optimisation stable. Des expériences approfondies démontrent que, lorsqu'il est entraîné sur des données standard de questions-réponses visuelles courtes sans annotations d'ancrage, MGPO suscite efficacement des capacités d'ancrage plus fortes par rapport à GRPO, conduisant à une amélioration de 5,4 % sur MME-Realworld en distribution et de 5,2 % sur le benchmark hors distribution (OOD) V* Bench. Notamment, l'entraînement postérieur de MGPO sur Qwen2.5-VL-7B avec 21 000 échantillons surpasse les modèles o1 d'OpenAI et GPT-4o sur le benchmark OOD V* Bench. Les codes sont disponibles à l'adresse https://github.com/EvolvingLMMs-Lab/MGPO.
English
State-of-the-art large multi-modal models (LMMs) face challenges when processing high-resolution images, as these inputs are converted into enormous visual tokens, many of which are irrelevant to the downstream task. In this paper, we propose Multi-turn Grounding-based Policy Optimization (MGPO), an end-to-end reinforcement learning (RL) framework that enables LMMs to iteratively focus on key visual regions by automatically cropping sub-images, based on model-predicted grounding coordinates within a multi-turn conversation framework. Compared to supervised fine-tuning (SFT), which requires costly additional grounding annotations, our approach highlights that LMMs can emerge robust grounding abilities during the RL training process, leveraging only a binary reward function derived from the correctness of the final answer. Additionally, we observe that LMMs struggle to autonomously trigger visual grounding during the rollout process. To address this cold start problem, we design a multi-turn conversational template and restrict policy loss computation to model outputs generated across multiple dialogue rounds, thereby promoting stable optimization. Extensive experiments demonstrate that, when trained on standard visual-question-short answering data without grounding annotations, MGPO effectively elicits stronger grounding capabilities compared to GRPO, leading to 5.4\% improvement on in-distribution MME-Realworld and 5.2\% improvement on the challenging out-of-distribution (OOD) V* Bench. Notably, MGPO post-training on Qwen2.5-VL-7B with 21K samples surpasses OpenAI's o1 and GPT-4o models on the OOD V* Bench. Codes are available at https://github.com/EvolvingLMMs-Lab/MGPO.
PDF111July 9, 2025