Razonamiento Visual de Alta Resolución mediante Aprendizaje por Refuerzo Basado en Fundamentos Multi-Turn
High-Resolution Visual Reasoning via Multi-Turn Grounding-Based Reinforcement Learning
July 8, 2025
Autores: Xinyu Huang, Yuhao Dong, Weiwei Tian, Bo Li, Rui Feng, Ziwei Liu
cs.AI
Resumen
Los modelos multimodales grandes (LMMs) de última generación enfrentan desafíos al procesar imágenes de alta resolución, ya que estas entradas se convierten en una gran cantidad de tokens visuales, muchos de los cuales son irrelevantes para la tarea posterior. En este artículo, proponemos la Optimización de Políticas Basada en Anclaje Multiturno (MGPO, por sus siglas en inglés), un marco de aprendizaje por refuerzo (RL) de extremo a extremo que permite a los LMMs enfocarse iterativamente en regiones visuales clave mediante el recorte automático de subimágenes, basado en coordenadas de anclaje predichas por el modelo dentro de un marco de conversación multiturno. En comparación con el ajuste fino supervisado (SFT), que requiere costosas anotaciones adicionales de anclaje, nuestro enfoque destaca que los LMMs pueden desarrollar habilidades robustas de anclaje durante el proceso de entrenamiento de RL, aprovechando únicamente una función de recompensa binaria derivada de la corrección de la respuesta final. Además, observamos que los LMMs tienen dificultades para activar de manera autónoma el anclaje visual durante el proceso de despliegue. Para abordar este problema de arranque en frío, diseñamos una plantilla de conversación multiturno y restringimos el cálculo de la pérdida de política a las salidas del modelo generadas en múltiples rondas de diálogo, promoviendo así una optimización estable. Experimentos extensos demuestran que, cuando se entrena con datos estándar de preguntas visuales-respuestas cortas sin anotaciones de anclaje, MGPO efectivamente induce capacidades de anclaje más fuertes en comparación con GRPO, logrando una mejora del 5.4% en MME-Realworld dentro de la distribución y del 5.2% en el desafiante V* Bench fuera de la distribución (OOD). Notablemente, el entrenamiento posterior de MGPO en Qwen2.5-VL-7B con 21K muestras supera a los modelos o1 de OpenAI y GPT-4o en el V* Bench OOD. Los códigos están disponibles en https://github.com/EvolvingLMMs-Lab/MGPO.
English
State-of-the-art large multi-modal models (LMMs) face challenges when
processing high-resolution images, as these inputs are converted into enormous
visual tokens, many of which are irrelevant to the downstream task. In this
paper, we propose Multi-turn Grounding-based Policy Optimization (MGPO), an
end-to-end reinforcement learning (RL) framework that enables LMMs to
iteratively focus on key visual regions by automatically cropping sub-images,
based on model-predicted grounding coordinates within a multi-turn conversation
framework. Compared to supervised fine-tuning (SFT), which requires costly
additional grounding annotations, our approach highlights that LMMs can emerge
robust grounding abilities during the RL training process, leveraging only a
binary reward function derived from the correctness of the final answer.
Additionally, we observe that LMMs struggle to autonomously trigger visual
grounding during the rollout process. To address this cold start problem, we
design a multi-turn conversational template and restrict policy loss
computation to model outputs generated across multiple dialogue rounds, thereby
promoting stable optimization. Extensive experiments demonstrate that, when
trained on standard visual-question-short answering data without grounding
annotations, MGPO effectively elicits stronger grounding capabilities compared
to GRPO, leading to 5.4\% improvement on in-distribution MME-Realworld and
5.2\% improvement on the challenging out-of-distribution (OOD) V* Bench.
Notably, MGPO post-training on Qwen2.5-VL-7B with 21K samples surpasses
OpenAI's o1 and GPT-4o models on the OOD V* Bench. Codes are available at
https://github.com/EvolvingLMMs-Lab/MGPO.