ChatPaper.aiChatPaper

코스모스 정책: 비주오모터 제어 및 계획을 위한 비디오 모델 미세 조정

Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control and Planning

January 22, 2026
저자: Moo Jin Kim, Yihuai Gao, Tsung-Yi Lin, Yen-Chen Lin, Yunhao Ge, Grace Lam, Percy Liang, Shuran Song, Ming-Yu Liu, Chelsea Finn, Jinwei Gu
cs.AI

초록

최근 비디오 생성 모델은 시간에 따른 복잡한 물리적 상호작용과 장면 변화를 놀라울 정도로 잘 포착합니다. 로봇공학 연구에서는 이러한 시공간적 사전 지식을 활용하기 위해 비디오 모델을 정책 학습에 적용하고 있지만, 행동 생성을 위해 사후 훈련 단계를 여러 번 거치고 새로운 아키텍처 구성 요소를 도입해야 하는 복잡성이 있습니다. 본 연구에서는 대규모 사전 훈련 비디오 모델(Cosmos-Predict2)을 대상 플랫폼에서 수집한 로봇 데모 데이터에 대해 단일 단계의 사후 훈련만으로 아키텍처 수정 없이 효과적인 로봇 정책(Cosmos Policy)으로 적용하는 간단한 접근법을 소개합니다. Cosmos Policy는 비디오 모델의 잠재 확산 과정 내에서 잠재 프레임으로 인코딩된 로봇 행동을 직접 생성하도록 학습하여, 모델의 사전 훈련된 사전 지식과 핵심 학습 알고리즘을 활용해 복잡한 행동 분포를 포착합니다. 또한 Cosmos Policy는 유사하게 잠재 프레임으로 인코딩된 미래 상태 이미지와 가치(기대 누적 보상)를 생성하여, 성공 가능성이 더 높은 행동 궤적을 시험 시간에 계획할 수 있게 합니다. 평가 결과, Cosmos Policy는 LIBERO 및 RoboCasa 시뮬레이션 벤치마크에서 각각 98.5%, 67.1%의 평균 성공률로 최첨단 성능을 달성했으며, 까다로운 실제 양손 조작 작업에서도 가장 높은 평균 점수를 기록했습니다. 이는 처음부터 학습된 강력한 확산 정책, 비디오 모델 기반 정책, 그리고 동일한 로봇 데모로 미세 조정된 최첨단 비전-언어-행동 모델보다 우수한 성과입니다. 더 나아가 정책 실행 데이터가 주어지면 Cosmos Policy는 경험으로부터 학습하여 세계 모델과 가치 함수를 개선하고 모델 기반 계획을 활용하여 까다로운 작업에서 더 높은 성공률을 달성할 수 있습니다. 코드, 모델 및 학습 데이터는 https://research.nvidia.com/labs/dir/cosmos-policy/에서 공개합니다.
English
Recent video generation models demonstrate remarkable ability to capture complex physical interactions and scene evolution over time. To leverage their spatiotemporal priors, robotics works have adapted video models for policy learning but introduce complexity by requiring multiple stages of post-training and new architectural components for action generation. In this work, we introduce Cosmos Policy, a simple approach for adapting a large pretrained video model (Cosmos-Predict2) into an effective robot policy through a single stage of post-training on the robot demonstration data collected on the target platform, with no architectural modifications. Cosmos Policy learns to directly generate robot actions encoded as latent frames within the video model's latent diffusion process, harnessing the model's pretrained priors and core learning algorithm to capture complex action distributions. Additionally, Cosmos Policy generates future state images and values (expected cumulative rewards), which are similarly encoded as latent frames, enabling test-time planning of action trajectories with higher likelihood of success. In our evaluations, Cosmos Policy achieves state-of-the-art performance on the LIBERO and RoboCasa simulation benchmarks (98.5% and 67.1% average success rates, respectively) and the highest average score in challenging real-world bimanual manipulation tasks, outperforming strong diffusion policies trained from scratch, video model-based policies, and state-of-the-art vision-language-action models fine-tuned on the same robot demonstrations. Furthermore, given policy rollout data, Cosmos Policy can learn from experience to refine its world model and value function and leverage model-based planning to achieve even higher success rates in challenging tasks. We release code, models, and training data at https://research.nvidia.com/labs/dir/cosmos-policy/
PDF61January 24, 2026