ChatPaper.aiChatPaper

SATORI-R1: Incentivización del razonamiento multimodal con fundamentación espacial y recompensas verificables

SATORI-R1: Incentivizing Multimodal Reasoning with Spatial Grounding and Verifiable Rewards

May 25, 2025
Autores: Chuming Shen, Wei Wei, Xiaoye Qu, Yu Cheng
cs.AI

Resumen

DeepSeek-R1 ha demostrado capacidades de razonamiento potentes en el dominio del texto a través del aprendizaje por refuerzo (RL) estable. Recientemente, en el dominio multimodal, se han comenzado a aplicar directamente técnicas de RL para generar razonamientos de forma libre similares a R1 en tareas de Respuesta Visual a Preguntas (VQA). Sin embargo, las tareas multimodales tienen una naturaleza intrínsecamente diferente a las tareas textuales, ya que dependen en gran medida de la comprensión de la imagen de entrada para resolver el problema. Por lo tanto, este tipo de razonamiento de forma libre enfrenta dos limitaciones críticas en la tarea de VQA: (1) Las cadenas de razonamiento extendidas dispersan el enfoque visual de las regiones críticas para la tarea, lo que degrada la precisión de las respuestas. (2) Los pasos intermedios no verificables amplifican la varianza del gradiente de la política y los costos computacionales adicionales. Para abordar estos problemas, en este artículo presentamos SATORI (Optimización de Tareas Ancladas Espacialmente con Aprendizaje por Refuerzo), que descompone la tarea de VQA en tres etapas verificables, incluyendo la descripción global de la imagen, la localización de regiones y la predicción de respuestas, cada una proporcionando señales de recompensa explícitas. Además, también presentamos VQA-Verify, un conjunto de datos de 12k anotado con descripciones y cuadros delimitadores alineados con las respuestas para facilitar el entrenamiento. Los experimentos demuestran mejoras consistentes en el rendimiento en siete benchmarks de VQA, logrando una mejora de hasta el 15.7% en precisión en comparación con la línea base similar a R1. Nuestro análisis del mapa de atención confirma un enfoque mejorado en las regiones críticas, lo que aporta mejoras en la precisión. Nuestro código está disponible en https://github.com/justairr/SATORI-R1.
English
DeepSeek-R1 has demonstrated powerful reasoning capabilities in the text domain through stable reinforcement learning (RL). Recently, in the multimodal domain, works have begun to directly apply RL to generate R1-like free-form reasoning for Visual Question Answering (VQA) tasks. However, multimodal tasks share an intrinsically different nature from textual tasks, which heavily rely on the understanding of the input image to solve the problem. Therefore, such free-form reasoning faces two critical limitations in the VQA task: (1) Extended reasoning chains diffuse visual focus away from task-critical regions, degrading answer accuracy. (2) Unverifiable intermediate steps amplify policy-gradient variance and computational costs overhead. To address these issues, in this paper, we introduce SATORI (Spatially Anchored Task Optimization with ReInforcement Learning), which decomposes VQA into three verifiable stages, including global image captioning, region localization, and answer prediction, each supplying explicit reward signals. Furthermore, we also introduce VQA-Verify, a 12k dataset annotated with answer-aligned captions and bounding-boxes to facilitate training. Experiments demonstrate consistent performance improvements across seven VQA benchmarks, achieving up to 15.7% improvement in accuracy in accuracy compared to the R1-like baseline. Our analysis of the attention map confirms enhanced focus on critical regions, which brings improvements in accuracy. Our code is available at https://github.com/justairr/SATORI-R1.

Summary

AI-Generated Summary

PDF22May 28, 2025