VLM-R^3: Reconocimiento de Regiones, Razonamiento y Refinamiento para una Cadena de Pensamiento Multimodal Mejorada
VLM-R^3: Region Recognition, Reasoning, and Refinement for Enhanced Multimodal Chain-of-Thought
May 22, 2025
Autores: Chaoya Jiang, Yongrui Heng, Wei Ye, Han Yang, Haiyang Xu, Ming Yan, Ji Zhang, Fei Huang, Shikun Zhang
cs.AI
Resumen
Recientemente, los modelos multimodales de lenguaje (MLLMs) basados en razonamiento han logrado cierto éxito en la generación de cadenas de razonamiento textual extensas. Sin embargo, aún enfrentan dificultades con tareas complejas que requieren un enfoque dinámico e iterativo en regiones visuales, así como su revisión, para lograr una fundamentación precisa del razonamiento textual en evidencia visual. Presentamos VLM-R^3 (Modelo de Lenguaje Visual con Reconocimiento y Razonamiento de Regiones), un marco que dota a un MLLM de la capacidad de (i) decidir cuándo se necesita evidencia visual adicional, (ii) determinar dónde fundamentarse dentro de la imagen y (iii) integrar de manera fluida el contenido relevante de la sub-imagen en una cadena de pensamiento intercalada. El núcleo de nuestro método es la Optimización de Políticas de Refuerzo Condicionada por Regiones (R-GRPO), un paradigma de entrenamiento que recompensa al modelo por seleccionar regiones informativas, formular transformaciones apropiadas (por ejemplo, recorte, zoom) e integrar el contexto visual resultante en pasos posteriores de razonamiento. Para iniciar esta política, compilamos un corpus modesto pero cuidadosamente seleccionado de Razonamiento Intercalado Visuo-Lingüístico (VLIR), que proporciona supervisión a nivel de paso en la selección de regiones y justificación textual. Experimentos extensos en MathVista, ScienceQA y otros benchmarks muestran que VLM-R^3 establece un nuevo estado del arte en configuraciones zero-shot y few-shot, con las mayores mejoras en preguntas que requieren razonamiento espacial sutil o extracción de señales visuales de grano fino.
English
Recently, reasoning-based MLLMs have achieved a degree of success in
generating long-form textual reasoning chains. However, they still struggle
with complex tasks that necessitate dynamic and iterative focusing on and
revisiting of visual regions to achieve precise grounding of textual reasoning
in visual evidence. We introduce VLM-R^3 (Visual
Language Model with Region Recognition and
Reasoning), a framework that equips an MLLM with the ability to (i)
decide when additional visual evidence is needed, (ii) determine
where to ground within the image, and (iii) seamlessly weave the
relevant sub-image content back into an interleaved chain-of-thought. The core
of our method is Region-Conditioned Reinforcement Policy Optimization
(R-GRPO), a training paradigm that rewards the model for selecting informative
regions, formulating appropriate transformations (e.g.\ crop, zoom), and
integrating the resulting visual context into subsequent reasoning steps. To
bootstrap this policy, we compile a modest but carefully curated Visuo-Lingual
Interleaved Rationale (VLIR) corpus that provides step-level supervision on
region selection and textual justification. Extensive experiments on MathVista,
ScienceQA, and other benchmarks show that VLM-R^3 sets a new state of the art
in zero-shot and few-shot settings, with the largest gains appearing on
questions demanding subtle spatial reasoning or fine-grained visual cue
extraction.Summary
AI-Generated Summary