Ein Vision-Sprache-Handlung-Kritiker-Modell für robotergestütztes Reinforcement Learning in der realen Welt
A Vision-Language-Action-Critic Model for Robotic Real-World Reinforcement Learning
September 19, 2025
papers.authors: Shaopeng Zhai, Qi Zhang, Tianyi Zhang, Fuxian Huang, Haoran Zhang, Ming Zhou, Shengzhe Zhang, Litao Liu, Sixu Lin, Jiangmiao Pang
cs.AI
papers.abstract
Robustes Reinforcement Learning (RL) in der realen Welt mit Vision-Sprache-Aktion (VLA)-Modellen wird durch spärliche, handgefertigte Belohnungen und ineffiziente Exploration eingeschränkt. Wir stellen VLAC vor, ein allgemeines Prozess-Belohnungsmodell, das auf InternVL aufbaut und auf groß angelegten heterogenen Datensätzen trainiert wurde. Bei gegebenen paarweisen Beobachtungen und einem Sprachziel gibt es dichte Fortschrittsdeltas und ein Done-Signal aus, wodurch die Notwendigkeit von aufgabenspezifischer Belohnungsentwicklung entfällt, und es unterstützt den One-Shot-In-Context-Transfer auf unbekannte Aufgaben und Umgebungen. VLAC wird auf Vision-Sprache-Datensätzen trainiert, um Wahrnehmungs-, Dialog- und Denkfähigkeiten zu stärken, zusammen mit Roboter- und menschlichen Trajektorien-Daten, die die Aktionsgenerierung und Fortschrittsabschätzung verankern, und zusätzlich gestärkt, um irrelevante Eingaben abzulehnen sowie Regression oder Stagnation durch die Konstruktion einer großen Anzahl von negativen und semantisch nicht übereinstimmenden Beispielen zu erkennen. Mit Prompt-Steuerung generiert ein einzelnes VLAC-Modell abwechselnd Belohnungs- und Aktions-Tokens und vereint damit Kritiker und Policy. Innerhalb einer asynchronen RL-Schleife in der realen Welt setzen wir ein gestuftes Human-in-the-Loop-Protokoll ein (Offline-Demonstrationswiedergabe, Rückkehr und Exploration, menschlich geführte Exploration), das die Exploration beschleunigt und das frühe Lernen stabilisiert. In vier verschiedenen realen Manipulationsaufgaben steigert VLAC die Erfolgsraten von etwa 30 % auf etwa 90 % innerhalb von 200 realen Interaktions-Episoden; die Einbindung von Human-in-the-Loop-Interventionen führt zu einer weiteren Verbesserung der Proben-Effizienz um 50 % und erreicht bis zu 100 % endgültigen Erfolg.
English
Robotic real-world reinforcement learning (RL) with vision-language-action
(VLA) models is bottlenecked by sparse, handcrafted rewards and inefficient
exploration. We introduce VLAC, a general process reward model built upon
InternVL and trained on large scale heterogeneous datasets. Given pairwise
observations and a language goal, it outputs dense progress delta and done
signal, eliminating task-specific reward engineering, and supports one-shot
in-context transfer to unseen tasks and environments. VLAC is trained on
vision-language datasets to strengthen perception, dialogic and reasoning
capabilities, together with robot and human trajectories data that ground
action generation and progress estimation, and additionally strengthened to
reject irrelevant prompts as well as detect regression or stagnation by
constructing large numbers of negative and semantically mismatched samples.
With prompt control, a single VLAC model alternately generating reward and
action tokens, unifying critic and policy. Deployed inside an asynchronous
real-world RL loop, we layer a graded human-in-the-loop protocol (offline
demonstration replay, return and explore, human guided explore) that
accelerates exploration and stabilizes early learning. Across four distinct
real-world manipulation tasks, VLAC lifts success rates from about 30\% to
about 90\% within 200 real-world interaction episodes; incorporating
human-in-the-loop interventions yields a further 50% improvement in sample
efficiency and achieves up to 100% final success.