ChatPaper.aiChatPaper

Hoogwaardige Visuele Redenering via Multi-Turn Grounding-Gebaseerd Reinforcement Learning

High-Resolution Visual Reasoning via Multi-Turn Grounding-Based Reinforcement Learning

July 8, 2025
Auteurs: Xinyu Huang, Yuhao Dong, Weiwei Tian, Bo Li, Rui Feng, Ziwei Liu
cs.AI

Samenvatting

State-of-the-art grote multimodale modellen (LMMs) worden geconfronteerd met uitdagingen bij het verwerken van hoogresolutiebeelden, aangezien deze invoer wordt omgezet in enorme visuele tokens, waarvan vele irrelevant zijn voor de downstream-taak. In dit artikel stellen we Multi-turn Grounding-based Policy Optimization (MGPO) voor, een end-to-end reinforcement learning (RL) framework dat LMMs in staat stelt om iteratief te focussen op belangrijke visuele regio's door automatisch subafbeeldingen uit te snijden, gebaseerd op door het model voorspelde grondingscoördinaten binnen een multi-turn conversatieframework. In vergelijking met supervised fine-tuning (SFT), dat kostbare aanvullende grondingsannotaties vereist, benadrukt onze aanpak dat LMMs robuuste grondingsvaardigheden kunnen ontwikkelen tijdens het RL-trainingsproces, waarbij alleen een binaire beloningsfunctie wordt gebruikt die is afgeleid van de juistheid van het uiteindelijke antwoord. Daarnaast merken we op dat LMMs moeite hebben om visuele gronding autonoom te activeren tijdens het rollout-proces. Om dit cold start-probleem aan te pakken, ontwerpen we een multi-turn conversatiesjabloon en beperken we de berekening van het beleidsverlies tot modeluitvoer die wordt gegenereerd over meerdere dialoogronden, waardoor stabiele optimalisatie wordt bevorderd. Uitgebreide experimenten tonen aan dat, wanneer getraind op standaard visuele-vraag-kort-antwoordgegevens zonder grondingsannotaties, MGPO effectief sterkere grondingsvaardigheden oproept in vergelijking met GRPO, wat leidt tot een verbetering van 5,4% op in-distributie MME-Realworld en 5,2% verbetering op de uitdagende out-of-distribution (OOD) V* Bench. Opmerkelijk is dat MGPO na training op Qwen2.5-VL-7B met 21K samples de OpenAI o1 en GPT-4o modellen overtreft op de OOD V* Bench. Codes zijn beschikbaar op https://github.com/EvolvingLMMs-Lab/MGPO.
English
State-of-the-art large multi-modal models (LMMs) face challenges when processing high-resolution images, as these inputs are converted into enormous visual tokens, many of which are irrelevant to the downstream task. In this paper, we propose Multi-turn Grounding-based Policy Optimization (MGPO), an end-to-end reinforcement learning (RL) framework that enables LMMs to iteratively focus on key visual regions by automatically cropping sub-images, based on model-predicted grounding coordinates within a multi-turn conversation framework. Compared to supervised fine-tuning (SFT), which requires costly additional grounding annotations, our approach highlights that LMMs can emerge robust grounding abilities during the RL training process, leveraging only a binary reward function derived from the correctness of the final answer. Additionally, we observe that LMMs struggle to autonomously trigger visual grounding during the rollout process. To address this cold start problem, we design a multi-turn conversational template and restrict policy loss computation to model outputs generated across multiple dialogue rounds, thereby promoting stable optimization. Extensive experiments demonstrate that, when trained on standard visual-question-short answering data without grounding annotations, MGPO effectively elicits stronger grounding capabilities compared to GRPO, leading to 5.4\% improvement on in-distribution MME-Realworld and 5.2\% improvement on the challenging out-of-distribution (OOD) V* Bench. Notably, MGPO post-training on Qwen2.5-VL-7B with 21K samples surpasses OpenAI's o1 and GPT-4o models on the OOD V* Bench. Codes are available at https://github.com/EvolvingLMMs-Lab/MGPO.
PDF111July 9, 2025