NVIDIA NeMo를 활용한 비디오 파운데이션 모델 학습
Training Video Foundation Models with NVIDIA NeMo
March 17, 2025
저자: Zeeshan Patel, Ethan He, Parth Mannan, Xiaowei Ren, Ryan Wolf, Niket Agarwal, Jacob Huffman, Zhuoyao Wang, Carl Wang, Jack Chang, Yan Bai, Tommy Huang, Linnan Wang, Sahil Jain, Shanmugam Ramasamy, Joseph Jennings, Ekaterina Sirazitdinova, Oleg Sudakov, Mingyuan Ma, Bobby Chen, Forrest Lin, Hao Wang, Vasanth Rao Naik Sabavat, Sriharsha Niverty, Rong Ou, Pallab Bhattacharya, David Page, Nima Tajbakhsh, Ashwath Aithal
cs.AI
초록
비디오 파운데이션 모델(VFMs)은 최근 실제 세계를 시뮬레이션하여 물리적 AI 시스템을 훈련시키고 창의적인 시각적 경험을 개발하는 데 사용되고 있습니다. 그러나 고품질 비디오를 생성할 수 있는 대규모, 고품질 VFM을 훈련시키는 데는 상당한 어려움이 있습니다. 우리는 NVIDIA NeMo를 활용한 확장 가능한 오픈소스 VFM 훈련 파이프라인을 제시하며, 이는 가속화된 비디오 데이터셋 큐레이션, 멀티모달 데이터 로딩, 병렬화된 비디오 확산 모델 훈련 및 추론을 제공합니다. 또한, 효율적인 VFM 훈련 및 추론을 위한 모범 사례를 강조하는 포괄적인 성능 분석도 제공합니다.
English
Video Foundation Models (VFMs) have recently been used to simulate the real
world to train physical AI systems and develop creative visual experiences.
However, there are significant challenges in training large-scale, high quality
VFMs that can generate high-quality videos. We present a scalable, open-source
VFM training pipeline with NVIDIA NeMo, providing accelerated video dataset
curation, multimodal data loading, and parallelized video diffusion model
training and inference. We also provide a comprehensive performance analysis
highlighting best practices for efficient VFM training and inference.Summary
AI-Generated Summary