ChatPaper.aiChatPaper

SATORI-R1: Incentivando o Raciocínio Multimodal com Fundamentação Espacial e Recompensas Verificáveis

SATORI-R1: Incentivizing Multimodal Reasoning with Spatial Grounding and Verifiable Rewards

May 25, 2025
Autores: Chuming Shen, Wei Wei, Xiaoye Qu, Yu Cheng
cs.AI

Resumo

O DeepSeek-R1 demonstrou capacidades de raciocínio poderosas no domínio textual por meio de aprendizado por reforço (RL) estável. Recentemente, no domínio multimodal, trabalhos começaram a aplicar diretamente o RL para gerar raciocínio livre semelhante ao R1 em tarefas de Visual Question Answering (VQA). No entanto, tarefas multimodais compartilham uma natureza intrinsecamente diferente das tarefas textuais, que dependem fortemente da compreensão da imagem de entrada para resolver o problema. Portanto, esse raciocínio livre enfrenta duas limitações críticas na tarefa de VQA: (1) Cadeias de raciocínio estendidas dispersam o foco visual das regiões críticas para a tarefa, degradando a precisão das respostas. (2) Etapas intermediárias não verificáveis amplificam a variância do gradiente de política e os custos computacionais adicionais. Para abordar esses problemas, neste artigo, introduzimos o SATORI (Spatially Anchored Task Optimization with Reinforcement Learning), que decompõe o VQA em três estágios verificáveis, incluindo a descrição global da imagem, a localização de regiões e a previsão de respostas, cada um fornecendo sinais de recompensa explícitos. Além disso, também introduzimos o VQA-Verify, um conjunto de dados de 12k anotado com legendas e caixas delimitadoras alinhadas às respostas para facilitar o treinamento. Experimentos demonstram melhorias consistentes de desempenho em sete benchmarks de VQA, alcançando uma melhoria de até 15,7% na precisão em comparação com a linha de base semelhante ao R1. Nossa análise do mapa de atenção confirma um foco aprimorado nas regiões críticas, o que traz melhorias na precisão. Nosso código está disponível em https://github.com/justairr/SATORI-R1.
English
DeepSeek-R1 has demonstrated powerful reasoning capabilities in the text domain through stable reinforcement learning (RL). Recently, in the multimodal domain, works have begun to directly apply RL to generate R1-like free-form reasoning for Visual Question Answering (VQA) tasks. However, multimodal tasks share an intrinsically different nature from textual tasks, which heavily rely on the understanding of the input image to solve the problem. Therefore, such free-form reasoning faces two critical limitations in the VQA task: (1) Extended reasoning chains diffuse visual focus away from task-critical regions, degrading answer accuracy. (2) Unverifiable intermediate steps amplify policy-gradient variance and computational costs overhead. To address these issues, in this paper, we introduce SATORI (Spatially Anchored Task Optimization with ReInforcement Learning), which decomposes VQA into three verifiable stages, including global image captioning, region localization, and answer prediction, each supplying explicit reward signals. Furthermore, we also introduce VQA-Verify, a 12k dataset annotated with answer-aligned captions and bounding-boxes to facilitate training. Experiments demonstrate consistent performance improvements across seven VQA benchmarks, achieving up to 15.7% improvement in accuracy in accuracy compared to the R1-like baseline. Our analysis of the attention map confirms enhanced focus on critical regions, which brings improvements in accuracy. Our code is available at https://github.com/justairr/SATORI-R1.
PDF22December 4, 2025