Simulação de Mundo com Modelos de Fundação de Vídeo para IA Física

Resumo

Apresentamos o [Cosmos-Predict2.5], a mais recente geração dos Modelos de Fundação Mundial Cosmos para IA Física. Construído sobre uma arquitetura baseada em fluxos, o [Cosmos-Predict2.5] unifica a geração Text2World, Image2World e Video2World em um único modelo e aproveita o [Cosmos-Reason1], um modelo de linguagem visual para IA Física, para fornecer uma ancoragem textual mais rica e um controle mais refinado da simulação mundial. Treinado em 200 milhões de clipes de vídeo selecionados e refinado com pós-treinamento baseado em aprendizado por reforço, o [Cosmos-Predict2.5] alcança melhorias substanciais em relação ao [Cosmos-Predict1] na qualidade do vídeo e no alinhamento com instruções, com modelos lançados nas escalas de 2B e 14B. Essas capacidades permitem uma geração de dados sintéticos mais confiável, avaliação de políticas e simulação de circuito fechado para robótica e sistemas autónomos. Ampliamos ainda mais a família com o [Cosmos-Transfer2.5], uma estrutura no estilo control-net para tradução mundial Sim2Real e Real2Real. Apesar de ser 3,5 vezes menor que o [Cosmos-Transfer1], ele oferece maior fidelidade e geração de vídeo robusta de longo horizonte. Juntos, esses avanços estabelecem o [Cosmos-Predict2.5] e o [Cosmos-Transfer2.5] como ferramentas versáteis para escalar a inteligência incorporada. Para acelerar a pesquisa e implantação em IA Física, disponibilizamos o código-fonte, *checkpoints* pré-treinados e *benchmarks* selecionados sob a Licença de Modelo Aberto da NVIDIA em https://github.com/nvidia-cosmos/cosmos-predict2.5 e https://github.com/nvidia-cosmos/cosmos-transfer2.5. Esperamos que esses recursos abertos reduzam as barreiras à adoção e promovam a inovação na construção da próxima geração de inteligência incorporada.

English

We introduce [Cosmos-Predict2.5], the latest generation of the Cosmos World Foundation Models for Physical AI. Built on a flow-based architecture, [Cosmos-Predict2.5] unifies Text2World, Image2World, and Video2World generation in a single model and leverages [Cosmos-Reason1], a Physical AI vision-language model, to provide richer text grounding and finer control of world simulation. Trained on 200M curated video clips and refined with reinforcement learning-based post-training, [Cosmos-Predict2.5] achieves substantial improvements over [Cosmos-Predict1] in video quality and instruction alignment, with models released at 2B and 14B scales. These capabilities enable more reliable synthetic data generation, policy evaluation, and closed-loop simulation for robotics and autonomous systems. We further extend the family with [Cosmos-Transfer2.5], a control-net style framework for Sim2Real and Real2Real world translation. Despite being 3.5times smaller than [Cosmos-Transfer1], it delivers higher fidelity and robust long-horizon video generation. Together, these advances establish [Cosmos-Predict2.5] and [Cosmos-Transfer2.5] as versatile tools for scaling embodied intelligence. To accelerate research and deployment in Physical AI, we release source code, pretrained checkpoints, and curated benchmarks under the NVIDIA Open Model License at https://github.com/nvidia-cosmos/cosmos-predict2.5 and https://github.com/nvidia-cosmos/cosmos-transfer2.5. We hope these open resources lower the barrier to adoption and foster innovation in building the next generation of embodied intelligence.

Simulação de Mundo com Modelos de Fundação de Vídeo para IA Física

World Simulation with Video Foundation Models for Physical AI

Resumo

Support