Raciocínio Visual de Alta Resolução via Aprendizado por Reforço Baseado em Multiplas Interações de Fundamentação
High-Resolution Visual Reasoning via Multi-Turn Grounding-Based Reinforcement Learning
July 8, 2025
Autores: Xinyu Huang, Yuhao Dong, Weiwei Tian, Bo Li, Rui Feng, Ziwei Liu
cs.AI
Resumo
Os modelos multimodais grandes (LMMs) de última geração enfrentam desafios ao processar imagens de alta resolução, pois essas entradas são convertidas em um número enorme de tokens visuais, muitos dos quais são irrelevantes para a tarefa subsequente. Neste artigo, propomos o Multi-turn Grounding-based Policy Optimization (MGPO), uma estrutura de aprendizado por reforço (RL) de ponta a ponta que permite que os LMMs foquem iterativamente em regiões visuais-chave, cortando automaticamente subimagens com base em coordenadas de ancoragem previstas pelo modelo dentro de uma estrutura de conversação multi-turn. Em comparação com o ajuste fino supervisionado (SFT), que requer anotações de ancoragem adicionais e custosas, nossa abordagem destaca que os LMMs podem desenvolver habilidades robustas de ancoragem durante o processo de treinamento de RL, utilizando apenas uma função de recompensa binária derivada da correção da resposta final. Além disso, observamos que os LMMs têm dificuldade em ativar autonomamente a ancoragem visual durante o processo de rollout. Para resolver esse problema de inicialização a frio, projetamos um modelo de conversação multi-turn e restringimos o cálculo da perda da política às saídas do modelo geradas em várias rodadas de diálogo, promovendo assim uma otimização estável. Experimentos extensivos demonstram que, quando treinado em dados padrão de perguntas e respostas curtas visuais sem anotações de ancoragem, o MGPO efetivamente elicita capacidades de ancoragem mais fortes em comparação com o GRPO, resultando em uma melhoria de 5,4% no MME-Realworld in-distribution e 5,2% no desafiador V* Bench out-of-distribution (OOD). Notavelmente, o pós-treinamento do MGPO no Qwen2.5-VL-7B com 21K amostras supera os modelos o1 e GPT-4o da OpenAI no OOD V* Bench. Os códigos estão disponíveis em https://github.com/EvolvingLMMs-Lab/MGPO.
English
State-of-the-art large multi-modal models (LMMs) face challenges when
processing high-resolution images, as these inputs are converted into enormous
visual tokens, many of which are irrelevant to the downstream task. In this
paper, we propose Multi-turn Grounding-based Policy Optimization (MGPO), an
end-to-end reinforcement learning (RL) framework that enables LMMs to
iteratively focus on key visual regions by automatically cropping sub-images,
based on model-predicted grounding coordinates within a multi-turn conversation
framework. Compared to supervised fine-tuning (SFT), which requires costly
additional grounding annotations, our approach highlights that LMMs can emerge
robust grounding abilities during the RL training process, leveraging only a
binary reward function derived from the correctness of the final answer.
Additionally, we observe that LMMs struggle to autonomously trigger visual
grounding during the rollout process. To address this cold start problem, we
design a multi-turn conversational template and restrict policy loss
computation to model outputs generated across multiple dialogue rounds, thereby
promoting stable optimization. Extensive experiments demonstrate that, when
trained on standard visual-question-short answering data without grounding
annotations, MGPO effectively elicits stronger grounding capabilities compared
to GRPO, leading to 5.4\% improvement on in-distribution MME-Realworld and
5.2\% improvement on the challenging out-of-distribution (OOD) V* Bench.
Notably, MGPO post-training on Qwen2.5-VL-7B with 21K samples surpasses
OpenAI's o1 and GPT-4o models on the OOD V* Bench. Codes are available at
https://github.com/EvolvingLMMs-Lab/MGPO.