ChatPaper.aiChatPaper

Entrenamiento de Modelos Fundamentales de Video con NVIDIA NeMo

Training Video Foundation Models with NVIDIA NeMo

March 17, 2025
Autores: Zeeshan Patel, Ethan He, Parth Mannan, Xiaowei Ren, Ryan Wolf, Niket Agarwal, Jacob Huffman, Zhuoyao Wang, Carl Wang, Jack Chang, Yan Bai, Tommy Huang, Linnan Wang, Sahil Jain, Shanmugam Ramasamy, Joseph Jennings, Ekaterina Sirazitdinova, Oleg Sudakov, Mingyuan Ma, Bobby Chen, Forrest Lin, Hao Wang, Vasanth Rao Naik Sabavat, Sriharsha Niverty, Rong Ou, Pallab Bhattacharya, David Page, Nima Tajbakhsh, Ashwath Aithal
cs.AI

Resumen

Los Modelos Fundacionales de Video (VFMs, por sus siglas en inglés) se han utilizado recientemente para simular el mundo real con el fin de entrenar sistemas de IA física y desarrollar experiencias visuales creativas. Sin embargo, existen desafíos significativos en el entrenamiento de VFMs a gran escala y de alta calidad que puedan generar videos de alta fidelidad. Presentamos una canalización de entrenamiento de VFMs escalable y de código abierto con NVIDIA NeMo, que ofrece una curación acelerada de conjuntos de datos de video, carga de datos multimodales, y entrenamiento e inferencia paralelizados de modelos de difusión de video. También proporcionamos un análisis de rendimiento exhaustivo que destaca las mejores prácticas para un entrenamiento e inferencia eficientes de VFMs.
English
Video Foundation Models (VFMs) have recently been used to simulate the real world to train physical AI systems and develop creative visual experiences. However, there are significant challenges in training large-scale, high quality VFMs that can generate high-quality videos. We present a scalable, open-source VFM training pipeline with NVIDIA NeMo, providing accelerated video dataset curation, multimodal data loading, and parallelized video diffusion model training and inference. We also provide a comprehensive performance analysis highlighting best practices for efficient VFM training and inference.

Summary

AI-Generated Summary

PDF62March 18, 2025