Treinamento de Modelos Fundamentais de Vídeo com NVIDIA NeMo
Training Video Foundation Models with NVIDIA NeMo
March 17, 2025
Autores: Zeeshan Patel, Ethan He, Parth Mannan, Xiaowei Ren, Ryan Wolf, Niket Agarwal, Jacob Huffman, Zhuoyao Wang, Carl Wang, Jack Chang, Yan Bai, Tommy Huang, Linnan Wang, Sahil Jain, Shanmugam Ramasamy, Joseph Jennings, Ekaterina Sirazitdinova, Oleg Sudakov, Mingyuan Ma, Bobby Chen, Forrest Lin, Hao Wang, Vasanth Rao Naik Sabavat, Sriharsha Niverty, Rong Ou, Pallab Bhattacharya, David Page, Nima Tajbakhsh, Ashwath Aithal
cs.AI
Resumo
Os Modelos de Fundação de Vídeo (VFMs) têm sido recentemente utilizados para simular o mundo real com o objetivo de treinar sistemas de IA física e desenvolver experiências visuais criativas. No entanto, existem desafios significativos no treinamento de VFMs em grande escala e de alta qualidade que possam gerar vídeos de alta fidelidade. Apresentamos um pipeline escalável e de código aberto para treinamento de VFMs utilizando o NVIDIA NeMo, oferecendo curadoria acelerada de conjuntos de dados de vídeo, carregamento de dados multimodais e treinamento e inferência paralelizados de modelos de difusão de vídeo. Também fornecemos uma análise abrangente de desempenho, destacando as melhores práticas para o treinamento e inferência eficientes de VFMs.
English
Video Foundation Models (VFMs) have recently been used to simulate the real
world to train physical AI systems and develop creative visual experiences.
However, there are significant challenges in training large-scale, high quality
VFMs that can generate high-quality videos. We present a scalable, open-source
VFM training pipeline with NVIDIA NeMo, providing accelerated video dataset
curation, multimodal data loading, and parallelized video diffusion model
training and inference. We also provide a comprehensive performance analysis
highlighting best practices for efficient VFM training and inference.Summary
AI-Generated Summary