Politique Cosmos : Affinage des modèles vidéo pour le contrôle et la planification visuomoteurs
Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control and Planning
January 22, 2026
papers.authors: Moo Jin Kim, Yihuai Gao, Tsung-Yi Lin, Yen-Chen Lin, Yunhao Ge, Grace Lam, Percy Liang, Shuran Song, Ming-Yu Liu, Chelsea Finn, Jinwei Gu
cs.AI
papers.abstract
Les modèles récents de génération vidéo démontrent une capacité remarquable à capturer les interactions physiques complexes et l'évolution temporelle des scènes. Pour exploiter leurs préconnaissances spatiotemporelles, les travaux en robotique ont adapté les modèles vidéo pour l'apprentissage de politiques, mais introduisent une complexité en nécessitant plusieurs étapes de post-formation et de nouveaux composants architecturaux pour la génération d'actions. Dans ce travail, nous présentons Cosmos Policy, une approche simple pour adapter un grand modèle vidéo préentraîné (Cosmos-Predict2) en une politique robotique efficace grâce à une seule étape de post-formation sur les données de démonstration robotique collectées sur la plateforme cible, sans modifications architecturales. Cosmos Policy apprend à générer directement des actions robotiques encodées comme des images latentes dans le processus de diffusion latente du modèle vidéo, exploitant les préconnaissances préentraînées du modèle et son algorithme d'apprentissage central pour capturer des distributions d'actions complexes. De plus, Cosmos Policy génère des images d'états futurs et des valeurs (récompenses cumulatives attendues), qui sont similairement encodées comme des images latentes, permettant une planification au moment du test des trajectoires d'actions avec une probabilité de succès plus élevée. Dans nos évaluations, Cosmos Policy atteint des performances de pointe sur les benchmarks de simulation LIBERO et RoboCasa (taux de réussite moyens de 98,5 % et 67,1 %, respectivement) et le score moyen le plus élevé dans des tâches de manipulation bimanuelle réelles difficiles, surpassant les politiques de diffusion fortes entraînées à partir de zéro, les politiques basées sur des modèles vidéo, et les modèles vision-langue-action de pointe affinés sur les mêmes démonstrations robotiques. Par ailleurs, étant donné les données d'exécution de la politique, Cosmos Policy peut apprendre de l'expérience pour affiner son modèle du monde et sa fonction de valeur et tirer parti de la planification basée modèle pour atteindre des taux de réussite encore plus élevés dans des tâches difficiles. Nous publions le code, les modèles et les données d'entraînement sur https://research.nvidia.com/labs/dir/cosmos-policy/
English
Recent video generation models demonstrate remarkable ability to capture complex physical interactions and scene evolution over time. To leverage their spatiotemporal priors, robotics works have adapted video models for policy learning but introduce complexity by requiring multiple stages of post-training and new architectural components for action generation. In this work, we introduce Cosmos Policy, a simple approach for adapting a large pretrained video model (Cosmos-Predict2) into an effective robot policy through a single stage of post-training on the robot demonstration data collected on the target platform, with no architectural modifications. Cosmos Policy learns to directly generate robot actions encoded as latent frames within the video model's latent diffusion process, harnessing the model's pretrained priors and core learning algorithm to capture complex action distributions. Additionally, Cosmos Policy generates future state images and values (expected cumulative rewards), which are similarly encoded as latent frames, enabling test-time planning of action trajectories with higher likelihood of success. In our evaluations, Cosmos Policy achieves state-of-the-art performance on the LIBERO and RoboCasa simulation benchmarks (98.5% and 67.1% average success rates, respectively) and the highest average score in challenging real-world bimanual manipulation tasks, outperforming strong diffusion policies trained from scratch, video model-based policies, and state-of-the-art vision-language-action models fine-tuned on the same robot demonstrations. Furthermore, given policy rollout data, Cosmos Policy can learn from experience to refine its world model and value function and leverage model-based planning to achieve even higher success rates in challenging tasks. We release code, models, and training data at https://research.nvidia.com/labs/dir/cosmos-policy/