ChatPaper.aiChatPaper

Политика Cosmos: Тонкая настройка видеомоделей для визомоторного управления и планирования

Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control and Planning

January 22, 2026
Авторы: Moo Jin Kim, Yihuai Gao, Tsung-Yi Lin, Yen-Chen Lin, Yunhao Ge, Grace Lam, Percy Liang, Shuran Song, Ming-Yu Liu, Chelsea Finn, Jinwei Gu
cs.AI

Аннотация

Современные модели генерации видео демонстрируют впечатляющую способность улавливать сложные физические взаимодействия и эволюцию сцены во времени. Чтобы использовать их пространственно-временные априорные знания, в робототехнике видео-модели адаптируют для обучения политик, однако это вносит сложность, требуя многоэтапного дообучения и новых архитектурных компонентов для генерации действий. В данной работе мы представляем Cosmos Policy — простой подход для адаптации крупной предобученной видео-модели (Cosmos-Predict2) в эффективную политику робота посредством одноэтапного дообучения на данных демонстраций, собранных на целевом роботизированном платформе, без каких-либо модификаций архитектуры. Cosmos Policy обучается напрямую генерировать действия робота, закодированные в виде латентных кадров в рамках процесса латентной диффузии видео-модели, используя её предобученные априорные знания и базовый алгоритм обучения для захвата сложных распределений действий. Дополнительно Cosmos Policy генерирует изображения будущих состояний и значения (ожидаемые кумулятивные награды), которые аналогично кодируются как латентные кадры, что позволяет планировать траектории действий во время тестирования с более высокой вероятностью успеха. В наших экспериментах Cosmos Policy достигает наилучших результатов на бенчмарках LIBERO и RoboCasa в симуляции (98.5% и 67.1% среднего успеха, соответственно) и наивысшего среднего балла в сложных задачах биманипуляции в реальном мире, превосходя сильные диффузионные политики, обученные с нуля, политики на основе видео-моделей и передовые модели "визуальный язык-действие", дообученные на тех же демонстрациях. Более того, используя данные о выполнении политики, Cosmos Policy может обучаться на опыте, уточняя свою модель мира и функцию ценности, и использовать планирование на основе модели для достижения ещё более высоких показателей успеха в сложных задачах. Мы публикуем код, модели и данные для обучения по адресу: https://research.nvidia.com/labs/dir/cosmos-policy/
English
Recent video generation models demonstrate remarkable ability to capture complex physical interactions and scene evolution over time. To leverage their spatiotemporal priors, robotics works have adapted video models for policy learning but introduce complexity by requiring multiple stages of post-training and new architectural components for action generation. In this work, we introduce Cosmos Policy, a simple approach for adapting a large pretrained video model (Cosmos-Predict2) into an effective robot policy through a single stage of post-training on the robot demonstration data collected on the target platform, with no architectural modifications. Cosmos Policy learns to directly generate robot actions encoded as latent frames within the video model's latent diffusion process, harnessing the model's pretrained priors and core learning algorithm to capture complex action distributions. Additionally, Cosmos Policy generates future state images and values (expected cumulative rewards), which are similarly encoded as latent frames, enabling test-time planning of action trajectories with higher likelihood of success. In our evaluations, Cosmos Policy achieves state-of-the-art performance on the LIBERO and RoboCasa simulation benchmarks (98.5% and 67.1% average success rates, respectively) and the highest average score in challenging real-world bimanual manipulation tasks, outperforming strong diffusion policies trained from scratch, video model-based policies, and state-of-the-art vision-language-action models fine-tuned on the same robot demonstrations. Furthermore, given policy rollout data, Cosmos Policy can learn from experience to refine its world model and value function and leverage model-based planning to achieve even higher success rates in challenging tasks. We release code, models, and training data at https://research.nvidia.com/labs/dir/cosmos-policy/
PDF61January 24, 2026