Entraînement de modèles de base vidéo avec NVIDIA NeMo
Training Video Foundation Models with NVIDIA NeMo
March 17, 2025
Auteurs: Zeeshan Patel, Ethan He, Parth Mannan, Xiaowei Ren, Ryan Wolf, Niket Agarwal, Jacob Huffman, Zhuoyao Wang, Carl Wang, Jack Chang, Yan Bai, Tommy Huang, Linnan Wang, Sahil Jain, Shanmugam Ramasamy, Joseph Jennings, Ekaterina Sirazitdinova, Oleg Sudakov, Mingyuan Ma, Bobby Chen, Forrest Lin, Hao Wang, Vasanth Rao Naik Sabavat, Sriharsha Niverty, Rong Ou, Pallab Bhattacharya, David Page, Nima Tajbakhsh, Ashwath Aithal
cs.AI
Résumé
Les modèles de fondation vidéo (VFMs) ont récemment été utilisés pour simuler le monde réel afin d'entraîner des systèmes d'IA physiques et de développer des expériences visuelles créatives. Cependant, il existe des défis importants dans l'entraînement de VFMs à grande échelle et de haute qualité capables de générer des vidéos de haute qualité. Nous présentons un pipeline d'entraînement de VFM évolutif et open-source avec NVIDIA NeMo, offrant une curation accélérée de jeux de données vidéo, un chargement de données multimodales, ainsi qu'un entraînement et une inférence parallélisés de modèles de diffusion vidéo. Nous fournissons également une analyse de performance complète mettant en lumière les meilleures pratiques pour un entraînement et une inférence efficaces des VFMs.
English
Video Foundation Models (VFMs) have recently been used to simulate the real
world to train physical AI systems and develop creative visual experiences.
However, there are significant challenges in training large-scale, high quality
VFMs that can generate high-quality videos. We present a scalable, open-source
VFM training pipeline with NVIDIA NeMo, providing accelerated video dataset
curation, multimodal data loading, and parallelized video diffusion model
training and inference. We also provide a comprehensive performance analysis
highlighting best practices for efficient VFM training and inference.Summary
AI-Generated Summary