Razonamiento Visual de Alta Resolución mediante Aprendizaje por Refuerzo Basado en Fundamentos Multi-Turn

Resumen

Los modelos multimodales grandes (LMMs) de última generación enfrentan desafíos al procesar imágenes de alta resolución, ya que estas entradas se convierten en una gran cantidad de tokens visuales, muchos de los cuales son irrelevantes para la tarea posterior. En este artículo, proponemos la Optimización de Políticas Basada en Anclaje Multiturno (MGPO, por sus siglas en inglés), un marco de aprendizaje por refuerzo (RL) de extremo a extremo que permite a los LMMs enfocarse iterativamente en regiones visuales clave mediante el recorte automático de subimágenes, basado en coordenadas de anclaje predichas por el modelo dentro de un marco de conversación multiturno. En comparación con el ajuste fino supervisado (SFT), que requiere costosas anotaciones adicionales de anclaje, nuestro enfoque destaca que los LMMs pueden desarrollar habilidades robustas de anclaje durante el proceso de entrenamiento de RL, aprovechando únicamente una función de recompensa binaria derivada de la corrección de la respuesta final. Además, observamos que los LMMs tienen dificultades para activar de manera autónoma el anclaje visual durante el proceso de despliegue. Para abordar este problema de arranque en frío, diseñamos una plantilla de conversación multiturno y restringimos el cálculo de la pérdida de política a las salidas del modelo generadas en múltiples rondas de diálogo, promoviendo así una optimización estable. Experimentos extensos demuestran que, cuando se entrena con datos estándar de preguntas visuales-respuestas cortas sin anotaciones de anclaje, MGPO efectivamente induce capacidades de anclaje más fuertes en comparación con GRPO, logrando una mejora del 5.4% en MME-Realworld dentro de la distribución y del 5.2% en el desafiante V* Bench fuera de la distribución (OOD). Notablemente, el entrenamiento posterior de MGPO en Qwen2.5-VL-7B con 21K muestras supera a los modelos o1 de OpenAI y GPT-4o en el V* Bench OOD. Los códigos están disponibles en https://github.com/EvolvingLMMs-Lab/MGPO.

English

State-of-the-art large multi-modal models (LMMs) face challenges when processing high-resolution images, as these inputs are converted into enormous visual tokens, many of which are irrelevant to the downstream task. In this paper, we propose Multi-turn Grounding-based Policy Optimization (MGPO), an end-to-end reinforcement learning (RL) framework that enables LMMs to iteratively focus on key visual regions by automatically cropping sub-images, based on model-predicted grounding coordinates within a multi-turn conversation framework. Compared to supervised fine-tuning (SFT), which requires costly additional grounding annotations, our approach highlights that LMMs can emerge robust grounding abilities during the RL training process, leveraging only a binary reward function derived from the correctness of the final answer. Additionally, we observe that LMMs struggle to autonomously trigger visual grounding during the rollout process. To address this cold start problem, we design a multi-turn conversational template and restrict policy loss computation to model outputs generated across multiple dialogue rounds, thereby promoting stable optimization. Extensive experiments demonstrate that, when trained on standard visual-question-short answering data without grounding annotations, MGPO effectively elicits stronger grounding capabilities compared to GRPO, leading to 5.4\% improvement on in-distribution MME-Realworld and 5.2\% improvement on the challenging out-of-distribution (OOD) V* Bench. Notably, MGPO post-training on Qwen2.5-VL-7B with 21K samples surpasses OpenAI's o1 and GPT-4o models on the OOD V* Bench. Codes are available at https://github.com/EvolvingLMMs-Lab/MGPO.

Razonamiento Visual de Alta Resolución mediante Aprendizaje por Refuerzo Basado en Fundamentos Multi-Turn

High-Resolution Visual Reasoning via Multi-Turn Grounding-Based Reinforcement Learning

Resumen

Support