SATORI-R1 : Incitation au raisonnement multimodal par ancrage spatial et récompenses vérifiables
SATORI-R1: Incentivizing Multimodal Reasoning with Spatial Grounding and Verifiable Rewards
May 25, 2025
Auteurs: Chuming Shen, Wei Wei, Xiaoye Qu, Yu Cheng
cs.AI
Résumé
DeepSeek-R1 a démontré de puissantes capacités de raisonnement dans le domaine textuel grâce à un apprentissage par renforcement (RL) stable. Récemment, dans le domaine multimodal, des travaux ont commencé à appliquer directement le RL pour générer un raisonnement libre de type R1 pour les tâches de Réponse à des Questions Visuelles (VQA). Cependant, les tâches multimodales présentent une nature intrinsèquement différente des tâches textuelles, qui reposent fortement sur la compréhension de l'image d'entrée pour résoudre le problème. Par conséquent, ce type de raisonnement libre rencontre deux limitations critiques dans la tâche VQA : (1) Les chaînes de raisonnement étendues dispersent l'attention visuelle des régions critiques pour la tâche, ce qui dégrade la précision des réponses. (2) Les étapes intermédiaires non vérifiables amplifient la variance du gradient de politique et les coûts de calcul supplémentaires. Pour résoudre ces problèmes, nous introduisons dans cet article SATORI (Optimisation des Tâches Ancrées Spatialement avec Apprentissage par Renforcement), qui décompose la VQA en trois étapes vérifiables, incluant la description globale de l'image, la localisation des régions et la prédiction de la réponse, chacune fournissant des signaux de récompense explicites. De plus, nous introduisons également VQA-Verify, un ensemble de données de 12k annoté avec des descriptions et des boîtes englobantes alignées sur les réponses pour faciliter l'entraînement. Les expériences démontrent des améliorations de performance constantes sur sept benchmarks VQA, atteignant jusqu'à 15,7 % d'amélioration en précision par rapport à la baseline de type R1. Notre analyse de la carte d'attention confirme une focalisation accrue sur les régions critiques, ce qui entraîne des améliorations en précision. Notre code est disponible à l'adresse https://github.com/justairr/SATORI-R1.
English
DeepSeek-R1 has demonstrated powerful reasoning capabilities in the text
domain through stable reinforcement learning (RL). Recently, in the multimodal
domain, works have begun to directly apply RL to generate R1-like free-form
reasoning for Visual Question Answering (VQA) tasks. However, multimodal tasks
share an intrinsically different nature from textual tasks, which heavily rely
on the understanding of the input image to solve the problem. Therefore, such
free-form reasoning faces two critical limitations in the VQA task: (1)
Extended reasoning chains diffuse visual focus away from task-critical regions,
degrading answer accuracy. (2) Unverifiable intermediate steps amplify
policy-gradient variance and computational costs overhead. To address these
issues, in this paper, we introduce SATORI (Spatially
Anchored Task Optimization with
ReInforcement Learning), which decomposes VQA into three
verifiable stages, including global image captioning, region localization, and
answer prediction, each supplying explicit reward signals. Furthermore, we also
introduce VQA-Verify, a 12k dataset annotated with answer-aligned captions and
bounding-boxes to facilitate training. Experiments demonstrate consistent
performance improvements across seven VQA benchmarks, achieving up to 15.7%
improvement in accuracy in accuracy compared to the R1-like baseline. Our
analysis of the attention map confirms enhanced focus on critical regions,
which brings improvements in accuracy. Our code is available at
https://github.com/justairr/SATORI-R1.Summary
AI-Generated Summary