Ragionamento Visivo ad Alta Risoluzione tramite Apprendimento per Rinforzo Basato su Multi-Turn Grounding
High-Resolution Visual Reasoning via Multi-Turn Grounding-Based Reinforcement Learning
July 8, 2025
Autori: Xinyu Huang, Yuhao Dong, Weiwei Tian, Bo Li, Rui Feng, Ziwei Liu
cs.AI
Abstract
I modelli multimodali di grandi dimensioni (LMM) all'avanguardia affrontano sfide quando elaborano immagini ad alta risoluzione, poiché questi input vengono convertiti in un numero enorme di token visivi, molti dei quali sono irrilevanti per il compito downstream. In questo articolo, proponiamo l'ottimizzazione delle politiche basata su grounding a più turni (MGPO), un framework di apprendimento per rinforzo (RL) end-to-end che consente ai LMM di concentrarsi iterativamente sulle regioni visive chiave ritagliando automaticamente sotto-immagini, basandosi su coordinate di grounding predette dal modello all'interno di un framework di conversazione a più turni. Rispetto al fine-tuning supervisionato (SFT), che richiede costose annotazioni aggiuntive di grounding, il nostro approccio evidenzia che i LMM possono sviluppare robuste capacità di grounding durante il processo di addestramento RL, sfruttando solo una funzione di ricompensa binaria derivata dalla correttezza della risposta finale. Inoltre, osserviamo che i LMM faticano a attivare autonomamente il grounding visivo durante il processo di rollout. Per affrontare questo problema di avvio a freddo, progettiamo un template di conversazione a più turni e limitiamo il calcolo della perdita della politica alle uscite del modello generate attraverso più round di dialogo, promuovendo così un'ottimizzazione stabile. Esperimenti estensivi dimostrano che, quando addestrato su dati standard di risposta breve a domande visive senza annotazioni di grounding, MGPO suscita efficacemente capacità di grounding più forti rispetto a GRPO, portando a un miglioramento del 5,4% su MME-Realworld in-distribution e del 5,2% sul complesso benchmark out-of-distribution (OOD) V*. In particolare, il post-addestramento di MGPO su Qwen2.5-VL-7B con 21K campioni supera i modelli o1 e GPT-4o di OpenAI sul benchmark OOD V*. I codici sono disponibili all'indirizzo https://github.com/EvolvingLMMs-Lab/MGPO.
English
State-of-the-art large multi-modal models (LMMs) face challenges when
processing high-resolution images, as these inputs are converted into enormous
visual tokens, many of which are irrelevant to the downstream task. In this
paper, we propose Multi-turn Grounding-based Policy Optimization (MGPO), an
end-to-end reinforcement learning (RL) framework that enables LMMs to
iteratively focus on key visual regions by automatically cropping sub-images,
based on model-predicted grounding coordinates within a multi-turn conversation
framework. Compared to supervised fine-tuning (SFT), which requires costly
additional grounding annotations, our approach highlights that LMMs can emerge
robust grounding abilities during the RL training process, leveraging only a
binary reward function derived from the correctness of the final answer.
Additionally, we observe that LMMs struggle to autonomously trigger visual
grounding during the rollout process. To address this cold start problem, we
design a multi-turn conversational template and restrict policy loss
computation to model outputs generated across multiple dialogue rounds, thereby
promoting stable optimization. Extensive experiments demonstrate that, when
trained on standard visual-question-short answering data without grounding
annotations, MGPO effectively elicits stronger grounding capabilities compared
to GRPO, leading to 5.4\% improvement on in-distribution MME-Realworld and
5.2\% improvement on the challenging out-of-distribution (OOD) V* Bench.
Notably, MGPO post-training on Qwen2.5-VL-7B with 21K samples surpasses
OpenAI's o1 and GPT-4o models on the OOD V* Bench. Codes are available at
https://github.com/EvolvingLMMs-Lab/MGPO.