VLA-R1: Verbesserung der Schlussfolgerungsfähigkeit in Vision-Sprache-Handlungs-Modellen
VLA-R1: Enhancing Reasoning in Vision-Language-Action Models
October 2, 2025
papers.authors: Angen Ye, Zeyu Zhang, Boyuan Wang, Xiaofeng Wang, Dapeng Zhang, Zheng Zhu
cs.AI
papers.abstract
Vision-Language-Action (VLA)-Modelle zielen darauf ab, Wahrnehmung, Sprachverständnis und Handlungsgenerierung zu vereinen und bieten eine starke Generalisierung über Aufgaben und Szenarien hinweg, was weitreichende Auswirkungen auf die verkörperte KI hat. Allerdings mangelt es aktuellen VLA-Modellen oft an expliziter schrittweiser Argumentation, da sie stattdessen finale Aktionen ausgeben, ohne Affordance-Beschränkungen oder geometrische Beziehungen zu berücksichtigen. Ihre Post-Training-Pipelines verstärken zudem selten die Qualität der Argumentation, da sie sich hauptsächlich auf überwachtes Feintuning mit schwacher Belohnungsgestaltung verlassen. Um diese Herausforderungen zu bewältigen, präsentieren wir VLA-R1, ein argumentationsgestärktes VLA-Modell, das Reinforcement Learning from Verifiable Rewards (RLVR) mit Group Relative Policy Optimization (GRPO) integriert, um sowohl die Argumentation als auch die Ausführung systematisch zu optimieren. Konkret entwerfen wir eine RLVR-basierte Post-Training-Strategie mit überprüfbaren Belohnungen für Bereichsausrichtung, Trajektorienkonsistenz und Ausgabeformatierung, wodurch die Robustheit der Argumentation und die Genauigkeit der Ausführung gestärkt werden. Darüber hinaus entwickeln wir VLA-CoT-13K, einen hochwertigen Datensatz, der eine explizit mit Affordance- und Trajektorienannotationen abgestimmte Ketten-der-Gedanken-Supervision bietet. Weiterhin zeigen umfangreiche Evaluierungen auf in-domain, out-of-domain, Simulations- und Echtzeit-Roboterplattformen, dass VLA-R1 eine überlegene Generalisierung und reale Leistungsfähigkeit im Vergleich zu früheren VLA-Methoden erreicht. Wir planen, das Modell, den Code und den Datensatz nach der Veröffentlichung dieser Arbeit freizugeben. Code: https://github.com/GigaAI-research/VLA-R1. Website: https://gigaai-research.github.io/VLA-R1.
English
Vision-Language-Action (VLA) models aim to unify perception, language
understanding, and action generation, offering strong cross-task and
cross-scene generalization with broad impact on embodied AI. However, current
VLA models often lack explicit step-by-step reasoning, instead emitting final
actions without considering affordance constraints or geometric relations.
Their post-training pipelines also rarely reinforce reasoning quality, relying
primarily on supervised fine-tuning with weak reward design. To address these
challenges, we present VLA-R1, a reasoning-enhanced VLA that integrates
Reinforcement Learning from Verifiable Rewards (RLVR) with Group Relative
Policy Optimization (GRPO) to systematically optimize both reasoning and
execution. Specifically, we design an RLVR-based post-training strategy with
verifiable rewards for region alignment, trajectory consistency, and output
formatting, thereby strengthening reasoning robustness and execution accuracy.
Moreover, we develop VLA-CoT-13K, a high-quality dataset that provides
chain-of-thought supervision explicitly aligned with affordance and trajectory
annotations. Furthermore, extensive evaluations on in-domain, out-of-domain,
simulation, and real-robot platforms demonstrate that VLA-R1 achieves superior
generalization and real-world performance compared to prior VLA methods. We
plan to release the model, code, and dataset following the publication of this
work. Code: https://github.com/GigaAI-research/VLA-R1. Website:
https://gigaai-research.github.io/VLA-R1.