ViVa: Un Modello Valoriale Generativo Video per l'Apprendimento per Rinforzo Robotico

Abstract

I modelli visione-linguaggio-azione (VLA) hanno fatto progredire la manipolazione robotica attraverso il pre-addestramento su larga scala, ma il dispiegamento nel mondo reale rimane impegnativo a causa dell'osservabilità parziale e del feedback ritardato. L'apprendimento per rinforzo affronta questo problema attraverso le funzioni di valore, che valutano i progressi del compito e guidano il miglioramento della politica. Tuttavia, i modelli di valore esistenti costruiti su modelli visione-linguaggio (VLM) faticano a catturare le dinamiche temporali, minando una stima affidabile del valore nei compiti a lungo termine. In questo articolo, proponiamo ViVa, un modello di valore video-generativo che riutilizza un generatore di video pre-addestrato per la stima del valore. Prendendo l'osservazione corrente e la propriocettione del robot come input, ViVa predice congiuntamente la propriocettione futura e un valore scalare per lo stato corrente. Sfruttando i preconcetti spazio-temporali di un generatore di video pre-addestrato, il nostro approccio ancorala stima del valore nelle dinamiche anticipate dell'incorporazione, andando oltre le istantanee statiche per accoppiare intrinsecamente il valore alla previsione. Integrato in RECAP, ViVa fornisce miglioramenti sostanziali nell'assemblaggio reale di scatole. L'analisi qualitativa su tutti e tre i compiti conferma che ViVa produce segnali di valore più affidabili, riflettendo accuratamente i progressi del compito. Sfruttando i preconcetti spazio-temporali provenienti da corpora video, ViVa generalizza anche a nuovi oggetti, evidenziando la promessa dei modelli video-generativi per la stima del valore.

English

Vision-language-action (VLA) models have advanced robot manipulation through large-scale pretraining, but real-world deployment remains challenging due to partial observability and delayed feedback. Reinforcement learning addresses this via value functions, which assess task progress and guide policy improvement. However, existing value models built on vision-language models (VLMs) struggle to capture temporal dynamics, undermining reliable value estimation in long-horizon tasks. In this paper, we propose ViVa, a video-generative value model that repurposes a pretrained video generator for value estimation. Taking the current observation and robot proprioception as input, ViVa jointly predicts future proprioception and a scalar value for the current state. By leveraging the spatiotemporal priors of a pretrained video generator, our approach grounds value estimation in anticipated embodiment dynamics, moving beyond static snapshots to intrinsically couple value with foresight. Integrated into RECAP, ViVa delivers substantial improvements on real-world box assembly. Qualitative analysis across all three tasks confirms that ViVa produces more reliable value signals, accurately reflecting task progress. By leveraging spatiotemporal priors from video corpora, ViVa also generalizes to novel objects, highlighting the promise of video-generative models for value estimation.

ViVa: Un Modello Valoriale Generativo Video per l'Apprendimento per Rinforzo Robotico

ViVa: A Video-Generative Value Model for Robot Reinforcement Learning

Abstract

Support