SATORI-R1: Anreize für multimodales Denken mit räumlicher Verankerung und überprüfbaren Belohnungen
SATORI-R1: Incentivizing Multimodal Reasoning with Spatial Grounding and Verifiable Rewards
May 25, 2025
Autoren: Chuming Shen, Wei Wei, Xiaoye Qu, Yu Cheng
cs.AI
Zusammenfassung
DeepSeek-R1 hat durch stabiles Reinforcement Learning (RL) beeindruckende Fähigkeiten im Bereich der Textverarbeitung demonstriert. Kürzlich wurden im multimodalen Bereich Arbeiten veröffentlicht, die RL direkt anwenden, um R1-ähnliche freie Schlussfolgerungen für Aufgaben der visuellen Fragebeantwortung (Visual Question Answering, VQA) zu generieren. Multimodale Aufgaben unterscheiden sich jedoch grundlegend von textbasierten Aufgaben, da sie stark auf das Verständnis des Eingabebildes angewiesen sind, um das Problem zu lösen. Daher stößt diese Art der freien Schlussfolgerung bei VQA-Aufgaben auf zwei kritische Einschränkungen: (1) Längere Schlussfolgerungsketten lenken den visuellen Fokus von aufgabenkritischen Regionen ab, was die Antwortgenauigkeit verringert. (2) Nicht überprüfbare Zwischenschritte verstärken die Varianz der Policy-Gradienten und erhöhen die Rechenkosten. Um diese Probleme zu lösen, stellen wir in diesem Artikel SATORI (Spatially Anchored Task Optimization with Reinforcement Learning) vor, das VQA in drei überprüfbare Stufen unterteilt: globale Bildbeschreibung, Regionenlokalisierung und Antwortvorhersage, wobei jede Stufe explizite Belohnungssignale liefert. Darüber hinaus führen wir VQA-Verify ein, einen Datensatz mit 12.000 Einträgen, der mit antwortbezogenen Beschreibungen und Begrenzungsrahmen annotiert ist, um das Training zu erleichtern. Experimente zeigen konsistente Leistungsverbesserungen über sieben VQA-Benchmarks hinweg, mit einer Genauigkeitssteigerung von bis zu 15,7 % im Vergleich zur R1-ähnlichen Baseline. Unsere Analyse der Aufmerksamkeitskarten bestätigt einen verbesserten Fokus auf kritische Regionen, was zu einer höheren Genauigkeit führt. Unser Code ist unter https://github.com/justairr/SATORI-R1 verfügbar.
English
DeepSeek-R1 has demonstrated powerful reasoning capabilities in the text
domain through stable reinforcement learning (RL). Recently, in the multimodal
domain, works have begun to directly apply RL to generate R1-like free-form
reasoning for Visual Question Answering (VQA) tasks. However, multimodal tasks
share an intrinsically different nature from textual tasks, which heavily rely
on the understanding of the input image to solve the problem. Therefore, such
free-form reasoning faces two critical limitations in the VQA task: (1)
Extended reasoning chains diffuse visual focus away from task-critical regions,
degrading answer accuracy. (2) Unverifiable intermediate steps amplify
policy-gradient variance and computational costs overhead. To address these
issues, in this paper, we introduce SATORI (Spatially
Anchored Task Optimization with
ReInforcement Learning), which decomposes VQA into three
verifiable stages, including global image captioning, region localization, and
answer prediction, each supplying explicit reward signals. Furthermore, we also
introduce VQA-Verify, a 12k dataset annotated with answer-aligned captions and
bounding-boxes to facilitate training. Experiments demonstrate consistent
performance improvements across seven VQA benchmarks, achieving up to 15.7%
improvement in accuracy in accuracy compared to the R1-like baseline. Our
analysis of the attention map confirms enhanced focus on critical regions,
which brings improvements in accuracy. Our code is available at
https://github.com/justairr/SATORI-R1.Summary
AI-Generated Summary