ChatPaper.aiChatPaper

Cosmos Policy: Feinabstimmung von Videomodellen für visuomotorische Steuerung und Planung

Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control and Planning

January 22, 2026
papers.authors: Moo Jin Kim, Yihuai Gao, Tsung-Yi Lin, Yen-Chen Lin, Yunhao Ge, Grace Lam, Percy Liang, Shuran Song, Ming-Yu Liu, Chelsea Finn, Jinwei Gu
cs.AI

papers.abstract

Aktuelle Videogenerierungsmodelle zeigen eine beeindruckende Fähigkeit, komplexe physikalische Interaktionen und Szenenentwicklungen über die Zeit zu erfassen. Um ihre räumlich-zeitlichen A-priori-Informationen zu nutzen, haben Arbeiten aus der Robotik Videomodelle für das Policy-Learning adaptiert, führten jedoch durch mehrstufiges Nachtraining und neue Architekturkomponenten für die Aktionsgenerierung Komplexität ein. In dieser Arbeit stellen wir Cosmos Policy vor, einen einfachen Ansatz zur Anpassung eines großen vortrainierten Videomodells (Cosmos-Predict2) zu einer effektiven Roboter-Policy durch eine einzige Phase des Nachtrainings auf den für die Zielplattform gesammelten Roboter-Demonstrationsdaten, ohne architektonische Modifikationen. Cosmos Policy lernt, direkt Roboteraktionen zu generieren, die als latente Frames innerhalb des latenten Diffusionsprozesses des Videomodells kodiert sind, und nutzt so die vortrainierten A-priori-Informationen und den Kernlernalgorithmus des Modells, um komplexe Aktionsverteilungen zu erfassen. Zusätzlich generiert Cosmos Policy zukünftige Zustandsbilder und Werte (erwartete kumulative Belohnungen), die ähnlich als latente Frames kodiert werden, was eine Planung von Aktionstrajektorien zur Laufzeit mit einer höheren Erfolgswahrscheinlichkeit ermöglicht. In unseren Evaluationen erzielt Cosmos Policy state-of-the-art Leistung auf den Simulations-Benchmarks LIBERO und RoboCasa (jeweils 98,5 % und 67,1 % durchschnittliche Erfolgsrate) sowie die höchste durchschnittliche Punktzahl bei anspruchsvollen realen bimanuellen Manipulationsaufgaben und übertrifft dabei starke von Grund auf trainierte Diffusions-Policies, videomodellbasierte Policies und state-of-the-art Vision-Language-Action-Modelle, die auf denselben Roboter-Demonstrationen feinabgestimmt wurden. Darüber hinaus kann Cosmos Policy bei Vorliegen von Policy-Rollout-Daten aus Erfahrung lernen, um sein Weltmodell und seine Wertfunktion zu verfeinern, und modellbasierte Planung nutzen, um in anspruchsvollen Aufgaben noch höhere Erfolgsraten zu erreichen. Wir veröffentlichen Code, Modelle und Trainingsdaten unter https://research.nvidia.com/labs/dir/cosmos-policy/.
English
Recent video generation models demonstrate remarkable ability to capture complex physical interactions and scene evolution over time. To leverage their spatiotemporal priors, robotics works have adapted video models for policy learning but introduce complexity by requiring multiple stages of post-training and new architectural components for action generation. In this work, we introduce Cosmos Policy, a simple approach for adapting a large pretrained video model (Cosmos-Predict2) into an effective robot policy through a single stage of post-training on the robot demonstration data collected on the target platform, with no architectural modifications. Cosmos Policy learns to directly generate robot actions encoded as latent frames within the video model's latent diffusion process, harnessing the model's pretrained priors and core learning algorithm to capture complex action distributions. Additionally, Cosmos Policy generates future state images and values (expected cumulative rewards), which are similarly encoded as latent frames, enabling test-time planning of action trajectories with higher likelihood of success. In our evaluations, Cosmos Policy achieves state-of-the-art performance on the LIBERO and RoboCasa simulation benchmarks (98.5% and 67.1% average success rates, respectively) and the highest average score in challenging real-world bimanual manipulation tasks, outperforming strong diffusion policies trained from scratch, video model-based policies, and state-of-the-art vision-language-action models fine-tuned on the same robot demonstrations. Furthermore, given policy rollout data, Cosmos Policy can learn from experience to refine its world model and value function and leverage model-based planning to achieve even higher success rates in challenging tasks. We release code, models, and training data at https://research.nvidia.com/labs/dir/cosmos-policy/
PDF61January 24, 2026