ChatPaper.aiChatPaper

Política Cosmos: Ajuste Fino de Modelos de Video para Control y Planificación Visomotora

Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control and Planning

January 22, 2026
Autores: Moo Jin Kim, Yihuai Gao, Tsung-Yi Lin, Yen-Chen Lin, Yunhao Ge, Grace Lam, Percy Liang, Shuran Song, Ming-Yu Liu, Chelsea Finn, Jinwei Gu
cs.AI

Resumen

Los modelos recientes de generación de vídeo demuestran una capacidad notable para capturar interacciones físicas complejas y la evolución de escenas a lo largo del tiempo. Para aprovechar sus *priors* espacio-temporales, trabajos en robótica han adaptado modelos de vídeo para el aprendizaje de políticas, pero introducen complejidad al requerir múltiples etapas de entrenamiento posterior y nuevos componentes arquitectónicos para la generación de acciones. En este trabajo, presentamos Cosmos Policy, un enfoque simple para adaptar un gran modelo de vídeo preentrenado (Cosmos-Predict2) en una política robótica efectiva mediante una única etapa de entrenamiento posterior en los datos de demostración del robot recopilados en la plataforma objetivo, sin modificaciones arquitectónicas. Cosmos Policy aprende a generar directamente acciones del robot codificadas como *frames* latentes dentro del proceso de difusión latente del modelo de vídeo, aprovechando los *priors* preentrenados del modelo y su algoritmo de aprendizaje central para capturar distribuciones de acciones complejas. Adicionalmente, Cosmos Policy genera imágenes de estados futuros y valores (recompensas acumuladas esperadas), que están igualmente codificados como *frames* latentes, permitiendo la planificación en tiempo de prueba de trayectorias de acción con mayor probabilidad de éxito. En nuestras evaluaciones, Cosmos Policy logra un rendimiento de vanguardia en los benchmarks de simulación LIBERO y RoboCasa (tasas de éxito promedio del 98.5% y 67.1%, respectivamente) y la puntuación promedio más alta en tareas de manipulación bimanual del mundo real y desafiantes, superando a políticas de difusión fuertes entrenadas desde cero, políticas basadas en modelos de vídeo y modelos visión-lenguaje-acción de última generación ajustados en las mismas demostraciones robóticas. Además, dados los datos de ejecución de la política, Cosmos Policy puede aprender de la experiencia para refinar su modelo del mundo y su función de valor y aprovechar la planificación basada en modelos para lograr tasas de éxito aún mayores en tareas desafiantes. Publicamos el código, modelos y datos de entrenamiento en https://research.nvidia.com/labs/dir/cosmos-policy/.
English
Recent video generation models demonstrate remarkable ability to capture complex physical interactions and scene evolution over time. To leverage their spatiotemporal priors, robotics works have adapted video models for policy learning but introduce complexity by requiring multiple stages of post-training and new architectural components for action generation. In this work, we introduce Cosmos Policy, a simple approach for adapting a large pretrained video model (Cosmos-Predict2) into an effective robot policy through a single stage of post-training on the robot demonstration data collected on the target platform, with no architectural modifications. Cosmos Policy learns to directly generate robot actions encoded as latent frames within the video model's latent diffusion process, harnessing the model's pretrained priors and core learning algorithm to capture complex action distributions. Additionally, Cosmos Policy generates future state images and values (expected cumulative rewards), which are similarly encoded as latent frames, enabling test-time planning of action trajectories with higher likelihood of success. In our evaluations, Cosmos Policy achieves state-of-the-art performance on the LIBERO and RoboCasa simulation benchmarks (98.5% and 67.1% average success rates, respectively) and the highest average score in challenging real-world bimanual manipulation tasks, outperforming strong diffusion policies trained from scratch, video model-based policies, and state-of-the-art vision-language-action models fine-tuned on the same robot demonstrations. Furthermore, given policy rollout data, Cosmos Policy can learn from experience to refine its world model and value function and leverage model-based planning to achieve even higher success rates in challenging tasks. We release code, models, and training data at https://research.nvidia.com/labs/dir/cosmos-policy/
PDF61January 24, 2026