NVIDIA NeMoを用いたビデオ基盤モデルのトレーニング

要旨

ビデオ基盤モデル（VFMs）は最近、物理的なAIシステムを訓練し、創造的な視覚体験を開発するために現実世界をシミュレートするために使用されています。しかし、高品質なビデオを生成できる大規模で高品質なVFMsを訓練するには、大きな課題があります。本論文では、NVIDIA NeMoを用いたスケーラブルでオープンソースのVFM訓練パイプラインを提案し、加速されたビデオデータセットのキュレーション、マルチモーダルデータのローディング、並列化されたビデオ拡散モデルの訓練と推論を提供します。また、効率的なVFM訓練と推論のためのベストプラクティスを強調した包括的なパフォーマンス分析も提供します。

English

Video Foundation Models (VFMs) have recently been used to simulate the real world to train physical AI systems and develop creative visual experiences. However, there are significant challenges in training large-scale, high quality VFMs that can generate high-quality videos. We present a scalable, open-source VFM training pipeline with NVIDIA NeMo, providing accelerated video dataset curation, multimodal data loading, and parallelized video diffusion model training and inference. We also provide a comprehensive performance analysis highlighting best practices for efficient VFM training and inference.

NVIDIA NeMoを用いたビデオ基盤モデルのトレーニング

Training Video Foundation Models with NVIDIA NeMo

要旨

Support