Cosmos Policy: Ottimizzazione Fine di Modelli Video per il Controllo e la Pianificazione Visuomotoria

Abstract

I modelli recenti di generazione video dimostrano una straordinaria capacità di catturare interazioni fisiche complesse e l'evoluzione della scena nel tempo. Per sfruttare i loro prerequisiti spazio-temporali, i lavori di robotica hanno adattato i modelli video per l'apprendimento di politiche, ma introducono complessità richiedendo multiple fasi di post-addestramento e nuovi componenti architetturali per la generazione di azioni. In questo lavoro, introduciamo Cosmos Policy, un approccio semplice per adattare un grande modello video pre-addestrato (Cosmos-Predict2) in una politica robotica efficace attraverso una singola fase di post-addestramento sui dati dimostrativi del robot raccolti sulla piattaforma target, senza modifiche architetturali. Cosmos Policy impara a generare direttamente le azioni del robot codificate come frame latenti all'interno del processo di diffusione latente del modello video, sfruttando i prerequisiti pre-addestrati del modello e il suo algoritmo di apprendimento centrale per catturare distribuzioni di azioni complesse. Inoltre, Cosmos Policy genera immagini dello stato futuro e valori (ricompense cumulative attese), che sono similmente codificati come frame latenti, abilitando una pianificazione in fase di test delle traiettorie di azione con una maggiore probabilità di successo. Nelle nostre valutazioni, Cosmos Policy raggiunge prestazioni all'avanguardia sui benchmark di simulazione LIBERO e RoboCasa (rispettivamente tassi di successo medi del 98,5% e 67,1%) e il punteggio medio più alto in impegnativi compiti di manipolazione bimanuale nel mondo reale, superando forti politiche di diffusione addestrate da zero, politiche basate su modelli video e modelli visione-linguaggio-azione all'avanguardia messi a punto sulle stesse dimostrazioni robotiche. Inoltre, dati i dati di rollout della politica, Cosmos Policy può apprendere dall'esperienza per affinare il suo modello del mondo e la funzione valore e sfruttare la pianificazione basata su modello per ottenere tassi di successo ancora più elevati in compiti impegnativi. Rilasciamo codice, modelli e dati di addestramento su https://research.nvidia.com/labs/dir/cosmos-policy/

English

Recent video generation models demonstrate remarkable ability to capture complex physical interactions and scene evolution over time. To leverage their spatiotemporal priors, robotics works have adapted video models for policy learning but introduce complexity by requiring multiple stages of post-training and new architectural components for action generation. In this work, we introduce Cosmos Policy, a simple approach for adapting a large pretrained video model (Cosmos-Predict2) into an effective robot policy through a single stage of post-training on the robot demonstration data collected on the target platform, with no architectural modifications. Cosmos Policy learns to directly generate robot actions encoded as latent frames within the video model's latent diffusion process, harnessing the model's pretrained priors and core learning algorithm to capture complex action distributions. Additionally, Cosmos Policy generates future state images and values (expected cumulative rewards), which are similarly encoded as latent frames, enabling test-time planning of action trajectories with higher likelihood of success. In our evaluations, Cosmos Policy achieves state-of-the-art performance on the LIBERO and RoboCasa simulation benchmarks (98.5% and 67.1% average success rates, respectively) and the highest average score in challenging real-world bimanual manipulation tasks, outperforming strong diffusion policies trained from scratch, video model-based policies, and state-of-the-art vision-language-action models fine-tuned on the same robot demonstrations. Furthermore, given policy rollout data, Cosmos Policy can learn from experience to refine its world model and value function and leverage model-based planning to achieve even higher success rates in challenging tasks. We release code, models, and training data at https://research.nvidia.com/labs/dir/cosmos-policy/

Cosmos Policy: Ottimizzazione Fine di Modelli Video per il Controllo e la Pianificazione Visuomotoria

Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control and Planning

Abstract

Support