ViVa: Een videogeneratief waardemodel voor robot reinforcement learning

Samenvatting

Vision-language-action (VLA)-modellen hebben robotmanipulatie vooruitgebracht door grootschalige voorafgaande training, maar de inzet in de echte wereld blijft een uitdaging vanwege gedeeltelijke observeerbaarheid en vertraagde feedback. Reinforcement learning pakt dit aan via waardefuncties, die de voortgang van de taak beoordelen en het verbeteren van het beleid sturen. Bestaande waardemodellen die zijn gebouwd op vision-language models (VLMs) hebben echter moeite met het vastleggen van temporele dynamiek, wat betrouwbare waardeschatting in taken met een lange tijdshorizon ondermijnt. In dit artikel stellen we ViVa voor, een video-generatief waardemodel dat een vooraf getrainde videogenerator hergebruikt voor waardeschatting. ViVo neemt de huidige observatie en robotproprioceptie als invoer en voorspelt gezamenlijk de toekomstige proprioceptie en een scalaire waarde voor de huidige toestand. Door gebruik te maken van de spatiotemporele voorkennis van een vooraf getrainde videogenerator, verankert onze aanpak waardeschatting in anticiperende embodiment-dynamiek, waardoor verder wordt gegaan dan statische momentopnames en waarde intrinsiek wordt gekoppeld aan vooruitziendheid. Geïntegreerd in RECAP levert ViVa aanzienlijke verbeteringen op bij echte montagetaken met dozen. Kwalitatieve analyse over alle drie de taken bevestigt dat ViVa betrouwbaardere waardesignalen produceert, die de taakvoortgang nauwkeurig weerspiegelen. Door gebruik te maken van spatiotemporele voorkennis uit videocorpora, generaliseert ViVo ook naar nieuwe objecten, wat de belofte van video-generatieve modellen voor waardeschatting benadrukt.

English

Vision-language-action (VLA) models have advanced robot manipulation through large-scale pretraining, but real-world deployment remains challenging due to partial observability and delayed feedback. Reinforcement learning addresses this via value functions, which assess task progress and guide policy improvement. However, existing value models built on vision-language models (VLMs) struggle to capture temporal dynamics, undermining reliable value estimation in long-horizon tasks. In this paper, we propose ViVa, a video-generative value model that repurposes a pretrained video generator for value estimation. Taking the current observation and robot proprioception as input, ViVa jointly predicts future proprioception and a scalar value for the current state. By leveraging the spatiotemporal priors of a pretrained video generator, our approach grounds value estimation in anticipated embodiment dynamics, moving beyond static snapshots to intrinsically couple value with foresight. Integrated into RECAP, ViVa delivers substantial improvements on real-world box assembly. Qualitative analysis across all three tasks confirms that ViVa produces more reliable value signals, accurately reflecting task progress. By leveraging spatiotemporal priors from video corpora, ViVa also generalizes to novel objects, highlighting the promise of video-generative models for value estimation.

ViVa: Een videogeneratief waardemodel voor robot reinforcement learning

ViVa: A Video-Generative Value Model for Robot Reinforcement Learning

Samenvatting

Support