ViVa : Un modèle de valeur génératif vidéo pour l'apprentissage par renforcement robotique

Résumé

Les modèles vision-langage-action (VLA) ont fait progresser la manipulation robotique grâce à l'apprentissage préalable à grande échelle, mais leur déploiement en conditions réelles reste difficile en raison de l'observabilité partielle et des retours d'information retardés. L'apprentissage par renforcement aborde ce problème via les fonctions de valeur, qui évaluent la progression de la tâche et guident l'amélioration de la politique. Cependant, les modèles de valeur existants, construits sur des modèles vision-langage (VLM), peinent à capturer la dynamique temporelle, compromettant ainsi l'estimation fiable de la valeur dans les tâches à long horizon. Dans cet article, nous proposons ViVa, un modèle de valeur génératif vidéo qui réutilise un générateur vidéo préentraîné pour l'estimation de valeur. Prenant l'observation actuelle et la proprioception du robot en entrée, ViVa prédit conjointement la proprioception future et une valeur scalaire pour l'état actuel. En tirant parti des préjugés spatio-temporels d'un générateur vidéo préentraîné, notre approche ancre l'estimation de valeur dans la dynamique anticipée de l'incarnation, dépassant les instantanés statiques pour coupler intrinsèquement la valeur à la prévision. Intégré à RECAP, ViVa apporte des améliorations substantielles à l'assemblage de boîtes en conditions réelles. Une analyse qualitative sur les trois tâches confirme que ViVa produit des signaux de valeur plus fiables, reflétant avec précision la progression de la tâche. En exploitant les préjugés spatio-temporels des corpus vidéo, ViVa généralise également à de nouveaux objets, soulignant la promesse des modèles génératifs vidéo pour l'estimation de valeur.

English

Vision-language-action (VLA) models have advanced robot manipulation through large-scale pretraining, but real-world deployment remains challenging due to partial observability and delayed feedback. Reinforcement learning addresses this via value functions, which assess task progress and guide policy improvement. However, existing value models built on vision-language models (VLMs) struggle to capture temporal dynamics, undermining reliable value estimation in long-horizon tasks. In this paper, we propose ViVa, a video-generative value model that repurposes a pretrained video generator for value estimation. Taking the current observation and robot proprioception as input, ViVa jointly predicts future proprioception and a scalar value for the current state. By leveraging the spatiotemporal priors of a pretrained video generator, our approach grounds value estimation in anticipated embodiment dynamics, moving beyond static snapshots to intrinsically couple value with foresight. Integrated into RECAP, ViVa delivers substantial improvements on real-world box assembly. Qualitative analysis across all three tasks confirms that ViVa produces more reliable value signals, accurately reflecting task progress. By leveraging spatiotemporal priors from video corpora, ViVa also generalizes to novel objects, highlighting the promise of video-generative models for value estimation.

ViVa : Un modèle de valeur génératif vidéo pour l'apprentissage par renforcement robotique

ViVa: A Video-Generative Value Model for Robot Reinforcement Learning

Résumé

Support