Política Cosmos: Ajuste Fino de Modelos de Vídeo para Controle e Planejamento Visuomotor

Resumo

Os modelos recentes de geração de vídeo demonstram capacidade notável para capturar interações físicas complexas e a evolução de cenas ao longo do tempo. Para aproveitar seus *priors* espaço-temporais, trabalhos em robótica adaptaram modelos de vídeo para aprendizado de políticas, mas introduzem complexidade ao exigir múltiplos estágios de pós-treinamento e novos componentes arquiteturais para geração de ações. Neste trabalho, introduzimos o Cosmos Policy, uma abordagem simples para adaptar um grande modelo de vídeo pré-treinado (Cosmos-Predict2) em uma política robótica eficaz por meio de um único estágio de pós-treinamento nos dados de demonstração robótica coletados na plataforma alvo, sem modificações arquiteturais. O Cosmos Policy aprende a gerar diretamente ações robóticas codificadas como quadros latentes dentro do processo de difusão latente do modelo de vídeo, aproveitando os *priors* pré-treinados do modelo e seu algoritmo central de aprendizado para capturar distribuições complexas de ações. Adicionalmente, o Cosmos Policy gera imagens de estados futuros e valores (recompensas cumulativas esperadas), que são similarmente codificados como quadros latentes, permitindo o planejamento em tempo de teste de trajetórias de ação com maior probabilidade de sucesso. Em nossas avaliações, o Cosmos Policy alcança desempenho de ponta nos benchmarks de simulação LIBERO e RoboCasa (taxas médias de sucesso de 98,5% e 67,1%, respectivamente) e a maior pontuação média em tarefas desafiadoras de manipulação bimanual no mundo real, superando políticas de difusão fortes treinadas do zero, políticas baseadas em modelos de vídeo e modelos visão-linguagem-ação de última geração ajustados nas mesmas demonstrações robóticas. Além disso, dados os dados de execução da política, o Cosmos Policy pode aprender com a experiência para refinar seu modelo mundial e função de valor e aproveitar o planejamento baseado em modelo para alcançar taxas de sucesso ainda maiores em tarefas desafiadoras. Disponibilizamos código, modelos e dados de treinamento em https://research.nvidia.com/labs/dir/cosmos-policy/.

English

Recent video generation models demonstrate remarkable ability to capture complex physical interactions and scene evolution over time. To leverage their spatiotemporal priors, robotics works have adapted video models for policy learning but introduce complexity by requiring multiple stages of post-training and new architectural components for action generation. In this work, we introduce Cosmos Policy, a simple approach for adapting a large pretrained video model (Cosmos-Predict2) into an effective robot policy through a single stage of post-training on the robot demonstration data collected on the target platform, with no architectural modifications. Cosmos Policy learns to directly generate robot actions encoded as latent frames within the video model's latent diffusion process, harnessing the model's pretrained priors and core learning algorithm to capture complex action distributions. Additionally, Cosmos Policy generates future state images and values (expected cumulative rewards), which are similarly encoded as latent frames, enabling test-time planning of action trajectories with higher likelihood of success. In our evaluations, Cosmos Policy achieves state-of-the-art performance on the LIBERO and RoboCasa simulation benchmarks (98.5% and 67.1% average success rates, respectively) and the highest average score in challenging real-world bimanual manipulation tasks, outperforming strong diffusion policies trained from scratch, video model-based policies, and state-of-the-art vision-language-action models fine-tuned on the same robot demonstrations. Furthermore, given policy rollout data, Cosmos Policy can learn from experience to refine its world model and value function and leverage model-based planning to achieve even higher success rates in challenging tasks. We release code, models, and training data at https://research.nvidia.com/labs/dir/cosmos-policy/