ChatPaper.aiChatPaper

SATORI-R1: Het stimuleren van multimodale redenering met ruimtelijke verankering en verifieerbare beloningen

SATORI-R1: Incentivizing Multimodal Reasoning with Spatial Grounding and Verifiable Rewards

May 25, 2025
Auteurs: Chuming Shen, Wei Wei, Xiaoye Qu, Yu Cheng
cs.AI

Samenvatting

DeepSeek-R1 heeft krachtige redeneervaardigheden in het tekstdomein aangetoond door middel van stabiele reinforcement learning (RL). Recentelijk zijn in het multimodale domein werken begonnen die RL direct toepassen om R1-achtig vrij vormgegeven redeneren te genereren voor Visual Question Answering (VQA)-taken. Multimodale taken hebben echter een intrinsiek andere aard dan tekstuele taken, die sterk afhankelijk zijn van het begrip van de invoerafbeelding om het probleem op te lossen. Daarom wordt dergelijk vrij vormgegeven redeneren in de VQA-taak geconfronteerd met twee kritieke beperkingen: (1) Uitgebreide redeneerketens leiden de visuele focus weg van taakkritieke regio's, wat de nauwkeurigheid van het antwoord vermindert. (2) Onverifieerbare tussenstappen versterken de variantie van het beleidsgradiënt en de overhead van de rekenkosten. Om deze problemen aan te pakken, introduceren we in dit artikel SATORI (Spatially Anchored Task Optimization with Reinforcement Learning), dat VQA opsplitst in drie verifieerbare fasen, waaronder globale beeldbeschrijving, regiolokalisatie en antwoordvoorspelling, waarbij elke fase expliciete beloningssignalen levert. Bovendien introduceren we ook VQA-Verify, een dataset van 12k geannoteerd met antwoord-uitgelijnde beschrijvingen en begrenzingsvakken om de training te vergemakkelijken. Experimenten tonen consistente prestatieverbeteringen aan over zeven VQA-benchmarks, met een verbetering in nauwkeurigheid tot 15,7% vergeleken met de R1-achtige baseline. Onze analyse van de aandachtkaart bevestigt een verbeterde focus op kritieke regio's, wat leidt tot verbeteringen in nauwkeurigheid. Onze code is beschikbaar op https://github.com/justairr/SATORI-R1.
English
DeepSeek-R1 has demonstrated powerful reasoning capabilities in the text domain through stable reinforcement learning (RL). Recently, in the multimodal domain, works have begun to directly apply RL to generate R1-like free-form reasoning for Visual Question Answering (VQA) tasks. However, multimodal tasks share an intrinsically different nature from textual tasks, which heavily rely on the understanding of the input image to solve the problem. Therefore, such free-form reasoning faces two critical limitations in the VQA task: (1) Extended reasoning chains diffuse visual focus away from task-critical regions, degrading answer accuracy. (2) Unverifiable intermediate steps amplify policy-gradient variance and computational costs overhead. To address these issues, in this paper, we introduce SATORI (Spatially Anchored Task Optimization with ReInforcement Learning), which decomposes VQA into three verifiable stages, including global image captioning, region localization, and answer prediction, each supplying explicit reward signals. Furthermore, we also introduce VQA-Verify, a 12k dataset annotated with answer-aligned captions and bounding-boxes to facilitate training. Experiments demonstrate consistent performance improvements across seven VQA benchmarks, achieving up to 15.7% improvement in accuracy in accuracy compared to the R1-like baseline. Our analysis of the attention map confirms enhanced focus on critical regions, which brings improvements in accuracy. Our code is available at https://github.com/justairr/SATORI-R1.
PDF22May 28, 2025