Cosmos-beleid: Het finetunen van videomodellen voor visuomotorische controle en planning

Samenvatting

Recente videogeneratiemodellen tonen een opmerkelijke capaciteit om complexe fysieke interacties en scène-evolutie in de tijd vast te leggen. Om hun spatiotemporele voorkennis te benutten, hebben roboticawerkzaamheden videomodellen aangepast voor beleidsleren, maar introduceren ze complexiteit door meerdere fasen van natraining en nieuwe architectuurcomponenten voor actiegeneratie te vereisen. In dit werk introduceren we Cosmos Policy, een eenvoudige aanpak om een groot vooraf getraind videomodel (Cosmos-Predict2) aan te passen tot een effectief robotbeleid via een enkele fase van natraining op de robotdemonstratiedata die op het doelplatform zijn verzameld, zonder architectuurwijzigingen. Cosmos Policy leert om direct robotacties te genereren die zijn gecodeerd als latente frames binnen het latente diffusieproces van het videomodel, waarbij de vooraf getrainde voorkennis en het kernleeralgoritme van het model worden benut om complexe actieverdelingen vast te leggen. Bovendien genereert Cosmos Policy toekomstige toestandsbeelden en waarden (verwachte cumulatieve beloningen), die op soortgelijke wijze als latente frames zijn gecodeerd, wat planning van actietrajecten tijdens tests mogelijk maakt met een hogere kans op succes. In onze evaluaties behaalt Cosmos Policy state-of-the-art prestaties op de LIBERO- en RoboCasa-simulatiebenchmarks (respectievelijk 98,5% en 67,1% gemiddeld slagingspercentage) en de hoogste gemiddelde score in uitdagende real-world bimanuele manipulatietaken, waarbij het sterke diffusiebeleid die vanaf nul zijn getraind, op videomodellen gebaseerde beleidsvormen en state-of-the-art vision-language-action-modellen die zijn afgestemd op dezelfde robotdemonstraties overtreft. Verder kan Cosmos Policy, gegeven beleidsuitroldata, leren van ervaring om zijn wereldmodel en waardefunctie te verfijnen en op modelgebaseerde planning te benutten om nog hogere slagingspercentages te bereiken in uitdagende taken. We geven code, modellen en trainingsdata vrij op https://research.nvidia.com/labs/dir/cosmos-policy/.

English

Recent video generation models demonstrate remarkable ability to capture complex physical interactions and scene evolution over time. To leverage their spatiotemporal priors, robotics works have adapted video models for policy learning but introduce complexity by requiring multiple stages of post-training and new architectural components for action generation. In this work, we introduce Cosmos Policy, a simple approach for adapting a large pretrained video model (Cosmos-Predict2) into an effective robot policy through a single stage of post-training on the robot demonstration data collected on the target platform, with no architectural modifications. Cosmos Policy learns to directly generate robot actions encoded as latent frames within the video model's latent diffusion process, harnessing the model's pretrained priors and core learning algorithm to capture complex action distributions. Additionally, Cosmos Policy generates future state images and values (expected cumulative rewards), which are similarly encoded as latent frames, enabling test-time planning of action trajectories with higher likelihood of success. In our evaluations, Cosmos Policy achieves state-of-the-art performance on the LIBERO and RoboCasa simulation benchmarks (98.5% and 67.1% average success rates, respectively) and the highest average score in challenging real-world bimanual manipulation tasks, outperforming strong diffusion policies trained from scratch, video model-based policies, and state-of-the-art vision-language-action models fine-tuned on the same robot demonstrations. Furthermore, given policy rollout data, Cosmos Policy can learn from experience to refine its world model and value function and leverage model-based planning to achieve even higher success rates in challenging tasks. We release code, models, and training data at https://research.nvidia.com/labs/dir/cosmos-policy/

Cosmos-beleid: Het finetunen van videomodellen voor visuomotorische controle en planning

Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control and Planning

Samenvatting

Support