ViVa: Un modelo de valor generativo de video para el aprendizaje por refuerzo en robótica

Resumen

Los modelos visión-lenguaje-acción (VLA) han avanzado la manipulación robótica mediante el preentrenamiento a gran escala, pero el despliegue en el mundo real sigue siendo un desafío debido a la observabilidad parcial y a la retroalimentación retardada. El aprendizaje por refuerzo aborda esto mediante funciones de valor, que evalúan el progreso de la tarea y guían la mejora de la política. Sin embargo, los modelos de valor existentes basados en modelos visión-lenguaje (VLM) tienen dificultades para capturar la dinámica temporal, lo que socava la estimación fiable del valor en tareas de horizonte largo. En este artículo, proponemos ViVa, un modelo de valor generativo de vídeo que readapta un generador de vídeo preentrenado para la estimación de valor. Tomando como entrada la observación actual y la propiocepción del robot, ViVa predice conjuntamente la propiocepción futura y un valor escalar para el estado actual. Al aprovechar los antecedentes espacio-temporales de un generador de vídeo preentrenado, nuestro enfoque fundamenta la estimación del valor en la dinámica anticipada de la encarnación, superando las instantáneas estáticas para acoplar intrínsecamente el valor con la previsión. Integrado en RECAP, ViVa aporta mejoras sustanciales en el ensamblaje de cajas del mundo real. El análisis cualitativo en las tres tareas confirma que ViVa produce señales de valor más fiables, reflejando con precisión el progreso de la tarea. Al aprovechar los antecedentes espacio-temporales de los corpus de vídeo, ViVa también generaliza a objetos novedosos, destacando la promesa de los modelos generativos de vídeo para la estimación de valor.

English

Vision-language-action (VLA) models have advanced robot manipulation through large-scale pretraining, but real-world deployment remains challenging due to partial observability and delayed feedback. Reinforcement learning addresses this via value functions, which assess task progress and guide policy improvement. However, existing value models built on vision-language models (VLMs) struggle to capture temporal dynamics, undermining reliable value estimation in long-horizon tasks. In this paper, we propose ViVa, a video-generative value model that repurposes a pretrained video generator for value estimation. Taking the current observation and robot proprioception as input, ViVa jointly predicts future proprioception and a scalar value for the current state. By leveraging the spatiotemporal priors of a pretrained video generator, our approach grounds value estimation in anticipated embodiment dynamics, moving beyond static snapshots to intrinsically couple value with foresight. Integrated into RECAP, ViVa delivers substantial improvements on real-world box assembly. Qualitative analysis across all three tasks confirms that ViVa produces more reliable value signals, accurately reflecting task progress. By leveraging spatiotemporal priors from video corpora, ViVa also generalizes to novel objects, highlighting the promise of video-generative models for value estimation.

ViVa: Un modelo de valor generativo de video para el aprendizaje por refuerzo en robótica

ViVa: A Video-Generative Value Model for Robot Reinforcement Learning

Resumen

Support