ChatPaper.aiChatPaper

ViVa: 로봇 강화학습을 위한 비디오 생성 가치 모델

ViVa: A Video-Generative Value Model for Robot Reinforcement Learning

April 9, 2026
저자: Jindi Lv, Hao Li, Jie Li, Yifei Nie, Fankun Kong, Yang Wang, Xiaofeng Wang, Zheng Zhu, Chaojun Ni, Qiuping Deng, Hengtao Li, Jiancheng Lv, Guan Huang
cs.AI

초록

비전-언어-행동(VLA) 모델은 대규모 사전 학습을 통해 로봇 매니픈레이션을 발전시켰으나, 부분 관측 가능성과 지연된 피드백으로 인해 실제 환경 적용은 여전히 어렵습니다. 강화 학습은 가치 함수를 통해 이러한 문제를 해결하는데, 가치 함수는 작업 진행도를 평가하고 정책 개선을 안내합니다. 그러나 비전-언어 모델(VLM) 기반 기존 가치 모델은 시간적 동역학을 포착하는 데 어려움을 겪어 장기간 작업에서 신뢰할 수 있는 가치 추정을 약화시킵니다. 본 논문에서는 사전 학습된 비디오 생성기를 가치 추정에 재활용하는 비디오 생성 가치 모델인 ViVa를 제안합니다. ViVa는 현재 관측값과 로봇 고유수용성감각을 입력으로 받아 미래의 고유수용성감각과 현재 상태의 스칼라 가치를 함께 예측합니다. 사전 학습된 비디오 생성기의 시공간적 사전 지식을 활용함으로써, 우리의 접근법은 가치 추정을 예측된 체화 동역학에 기반하게 하여 정적 단편을 넘어 가치와 전망을 내재적으로 결합합니다. RECAP에 통합된 ViVa는 실제 환경의 박스 조립 작업에서 상당한 성능 향상을 제공합니다. 세 가지 작업에 대한 정성적 분석은 ViVa가 작업 진행도를 정확히 반영하는 더욱 신뢰할 수 있는 가치 신호를 생성함을 확인합니다. 비디오 코퍼스의 시공간적 사전 지험을 활용함으로써, ViVa는 새로운 객체에도 일반화되어 가치 추정을 위한 비디오 생성 모델의 가능성을 부각시킵니다.
English
Vision-language-action (VLA) models have advanced robot manipulation through large-scale pretraining, but real-world deployment remains challenging due to partial observability and delayed feedback. Reinforcement learning addresses this via value functions, which assess task progress and guide policy improvement. However, existing value models built on vision-language models (VLMs) struggle to capture temporal dynamics, undermining reliable value estimation in long-horizon tasks. In this paper, we propose ViVa, a video-generative value model that repurposes a pretrained video generator for value estimation. Taking the current observation and robot proprioception as input, ViVa jointly predicts future proprioception and a scalar value for the current state. By leveraging the spatiotemporal priors of a pretrained video generator, our approach grounds value estimation in anticipated embodiment dynamics, moving beyond static snapshots to intrinsically couple value with foresight. Integrated into RECAP, ViVa delivers substantial improvements on real-world box assembly. Qualitative analysis across all three tasks confirms that ViVa produces more reliable value signals, accurately reflecting task progress. By leveraging spatiotemporal priors from video corpora, ViVa also generalizes to novel objects, highlighting the promise of video-generative models for value estimation.
PDF81April 11, 2026