ChatPaper.aiChatPaper

Video Foundation Models trainen met NVIDIA NeMo

Training Video Foundation Models with NVIDIA NeMo

March 17, 2025
Auteurs: Zeeshan Patel, Ethan He, Parth Mannan, Xiaowei Ren, Ryan Wolf, Niket Agarwal, Jacob Huffman, Zhuoyao Wang, Carl Wang, Jack Chang, Yan Bai, Tommy Huang, Linnan Wang, Sahil Jain, Shanmugam Ramasamy, Joseph Jennings, Ekaterina Sirazitdinova, Oleg Sudakov, Mingyuan Ma, Bobby Chen, Forrest Lin, Hao Wang, Vasanth Rao Naik Sabavat, Sriharsha Niverty, Rong Ou, Pallab Bhattacharya, David Page, Nima Tajbakhsh, Ashwath Aithal
cs.AI

Samenvatting

Video Foundation Models (VFMs) zijn recentelijk gebruikt om de echte wereld te simuleren voor het trainen van fysieke AI-systemen en het ontwikkelen van creatieve visuele ervaringen. Er zijn echter aanzienlijke uitdagingen bij het trainen van grootschalige, hoogwaardige VFMs die hoogwaardige video's kunnen genereren. Wij presenteren een schaalbare, open-source VFM-trainingspipeline met NVIDIA NeMo, die versnelde curatie van videodatasets, multimodale dataloading en parallelle training en inferentie van videodiffusiemodellen biedt. We bieden ook een uitgebreide prestatieanalyse die de beste praktijken benadrukt voor efficiënte VFM-training en inferentie.
English
Video Foundation Models (VFMs) have recently been used to simulate the real world to train physical AI systems and develop creative visual experiences. However, there are significant challenges in training large-scale, high quality VFMs that can generate high-quality videos. We present a scalable, open-source VFM training pipeline with NVIDIA NeMo, providing accelerated video dataset curation, multimodal data loading, and parallelized video diffusion model training and inference. We also provide a comprehensive performance analysis highlighting best practices for efficient VFM training and inference.

Summary

AI-Generated Summary

PDF62March 18, 2025