Addestramento di Modelli Fondamentali per Video con NVIDIA NeMo
Training Video Foundation Models with NVIDIA NeMo
March 17, 2025
Autori: Zeeshan Patel, Ethan He, Parth Mannan, Xiaowei Ren, Ryan Wolf, Niket Agarwal, Jacob Huffman, Zhuoyao Wang, Carl Wang, Jack Chang, Yan Bai, Tommy Huang, Linnan Wang, Sahil Jain, Shanmugam Ramasamy, Joseph Jennings, Ekaterina Sirazitdinova, Oleg Sudakov, Mingyuan Ma, Bobby Chen, Forrest Lin, Hao Wang, Vasanth Rao Naik Sabavat, Sriharsha Niverty, Rong Ou, Pallab Bhattacharya, David Page, Nima Tajbakhsh, Ashwath Aithal
cs.AI
Abstract
I modelli di base per video (Video Foundation Models, VFM) sono stati recentemente utilizzati per simulare il mondo reale, addestrare sistemi di intelligenza artificiale fisica e sviluppare esperienze visive creative. Tuttavia, esistono sfide significative nell'addestramento di VFM su larga scala e di alta qualità in grado di generare video di elevata qualità. Presentiamo una pipeline di addestramento VFM scalabile e open-source con NVIDIA NeMo, che offre un'acquisizione accelerata di dataset video, caricamento di dati multimodali e addestramento e inferenza paralleli di modelli di diffusione video. Forniamo inoltre un'analisi completa delle prestazioni che evidenzia le migliori pratiche per un addestramento e un'inferenza efficienti dei VFM.
English
Video Foundation Models (VFMs) have recently been used to simulate the real
world to train physical AI systems and develop creative visual experiences.
However, there are significant challenges in training large-scale, high quality
VFMs that can generate high-quality videos. We present a scalable, open-source
VFM training pipeline with NVIDIA NeMo, providing accelerated video dataset
curation, multimodal data loading, and parallelized video diffusion model
training and inference. We also provide a comprehensive performance analysis
highlighting best practices for efficient VFM training and inference.