VLA-R1: Verbesserung der Schlussfolgerungsfähigkeit in Vision-Sprache-Handlungs-Modellen

papers.abstract

Vision-Language-Action (VLA)-Modelle zielen darauf ab, Wahrnehmung, Sprachverständnis und Handlungsgenerierung zu vereinen und bieten eine starke Generalisierung über Aufgaben und Szenarien hinweg, was weitreichende Auswirkungen auf die verkörperte KI hat. Allerdings mangelt es aktuellen VLA-Modellen oft an expliziter schrittweiser Argumentation, da sie stattdessen finale Aktionen ausgeben, ohne Affordance-Beschränkungen oder geometrische Beziehungen zu berücksichtigen. Ihre Post-Training-Pipelines verstärken zudem selten die Qualität der Argumentation, da sie sich hauptsächlich auf überwachtes Feintuning mit schwacher Belohnungsgestaltung verlassen. Um diese Herausforderungen zu bewältigen, präsentieren wir VLA-R1, ein argumentationsgestärktes VLA-Modell, das Reinforcement Learning from Verifiable Rewards (RLVR) mit Group Relative Policy Optimization (GRPO) integriert, um sowohl die Argumentation als auch die Ausführung systematisch zu optimieren. Konkret entwerfen wir eine RLVR-basierte Post-Training-Strategie mit überprüfbaren Belohnungen für Bereichsausrichtung, Trajektorienkonsistenz und Ausgabeformatierung, wodurch die Robustheit der Argumentation und die Genauigkeit der Ausführung gestärkt werden. Darüber hinaus entwickeln wir VLA-CoT-13K, einen hochwertigen Datensatz, der eine explizit mit Affordance- und Trajektorienannotationen abgestimmte Ketten-der-Gedanken-Supervision bietet. Weiterhin zeigen umfangreiche Evaluierungen auf in-domain, out-of-domain, Simulations- und Echtzeit-Roboterplattformen, dass VLA-R1 eine überlegene Generalisierung und reale Leistungsfähigkeit im Vergleich zu früheren VLA-Methoden erreicht. Wir planen, das Modell, den Code und den Datensatz nach der Veröffentlichung dieser Arbeit freizugeben. Code: https://github.com/GigaAI-research/VLA-R1. Website: https://gigaai-research.github.io/VLA-R1.

English

Vision-Language-Action (VLA) models aim to unify perception, language understanding, and action generation, offering strong cross-task and cross-scene generalization with broad impact on embodied AI. However, current VLA models often lack explicit step-by-step reasoning, instead emitting final actions without considering affordance constraints or geometric relations. Their post-training pipelines also rarely reinforce reasoning quality, relying primarily on supervised fine-tuning with weak reward design. To address these challenges, we present VLA-R1, a reasoning-enhanced VLA that integrates Reinforcement Learning from Verifiable Rewards (RLVR) with Group Relative Policy Optimization (GRPO) to systematically optimize both reasoning and execution. Specifically, we design an RLVR-based post-training strategy with verifiable rewards for region alignment, trajectory consistency, and output formatting, thereby strengthening reasoning robustness and execution accuracy. Moreover, we develop VLA-CoT-13K, a high-quality dataset that provides chain-of-thought supervision explicitly aligned with affordance and trajectory annotations. Furthermore, extensive evaluations on in-domain, out-of-domain, simulation, and real-robot platforms demonstrate that VLA-R1 achieves superior generalization and real-world performance compared to prior VLA methods. We plan to release the model, code, and dataset following the publication of this work. Code: https://github.com/GigaAI-research/VLA-R1. Website: https://gigaai-research.github.io/VLA-R1.

VLA-R1: Verbesserung der Schlussfolgerungsfähigkeit in Vision-Sprache-Handlungs-Modellen

VLA-R1: Enhancing Reasoning in Vision-Language-Action Models

papers.abstract

Support