VLM-R^3: Reconocimiento de Regiones, Razonamiento y Refinamiento para una Cadena de Pensamiento Multimodal Mejorada

Resumen

Recientemente, los modelos multimodales de lenguaje (MLLMs) basados en razonamiento han logrado cierto éxito en la generación de cadenas de razonamiento textual extensas. Sin embargo, aún enfrentan dificultades con tareas complejas que requieren un enfoque dinámico e iterativo en regiones visuales, así como su revisión, para lograr una fundamentación precisa del razonamiento textual en evidencia visual. Presentamos VLM-R^3 (Modelo de Lenguaje Visual con Reconocimiento y Razonamiento de Regiones), un marco que dota a un MLLM de la capacidad de (i) decidir cuándo se necesita evidencia visual adicional, (ii) determinar dónde fundamentarse dentro de la imagen y (iii) integrar de manera fluida el contenido relevante de la sub-imagen en una cadena de pensamiento intercalada. El núcleo de nuestro método es la Optimización de Políticas de Refuerzo Condicionada por Regiones (R-GRPO), un paradigma de entrenamiento que recompensa al modelo por seleccionar regiones informativas, formular transformaciones apropiadas (por ejemplo, recorte, zoom) e integrar el contexto visual resultante en pasos posteriores de razonamiento. Para iniciar esta política, compilamos un corpus modesto pero cuidadosamente seleccionado de Razonamiento Intercalado Visuo-Lingüístico (VLIR), que proporciona supervisión a nivel de paso en la selección de regiones y justificación textual. Experimentos extensos en MathVista, ScienceQA y otros benchmarks muestran que VLM-R^3 establece un nuevo estado del arte en configuraciones zero-shot y few-shot, con las mayores mejoras en preguntas que requieren razonamiento espacial sutil o extracción de señales visuales de grano fino.

English

Recently, reasoning-based MLLMs have achieved a degree of success in generating long-form textual reasoning chains. However, they still struggle with complex tasks that necessitate dynamic and iterative focusing on and revisiting of visual regions to achieve precise grounding of textual reasoning in visual evidence. We introduce VLM-R^3 (Visual Language Model with Region Recognition and Reasoning), a framework that equips an MLLM with the ability to (i) decide when additional visual evidence is needed, (ii) determine where to ground within the image, and (iii) seamlessly weave the relevant sub-image content back into an interleaved chain-of-thought. The core of our method is Region-Conditioned Reinforcement Policy Optimization (R-GRPO), a training paradigm that rewards the model for selecting informative regions, formulating appropriate transformations (e.g.\ crop, zoom), and integrating the resulting visual context into subsequent reasoning steps. To bootstrap this policy, we compile a modest but carefully curated Visuo-Lingual Interleaved Rationale (VLIR) corpus that provides step-level supervision on region selection and textual justification. Extensive experiments on MathVista, ScienceQA, and other benchmarks show that VLM-R^3 sets a new state of the art in zero-shot and few-shot settings, with the largest gains appearing on questions demanding subtle spatial reasoning or fine-grained visual cue extraction.

VLM-R^3: Reconocimiento de Regiones, Razonamiento y Refinamiento para una Cadena de Pensamiento Multimodal Mejorada

VLM-R^3: Region Recognition, Reasoning, and Refinement for Enhanced Multimodal Chain-of-Thought

Resumen

Support