Helios: Модель генерации длинных видео в реальном времени

Аннотация

Мы представляем Helios — первую 14-миллиардную модель генерации видео, работающую со скоростью 19,5 кадров в секунду на одном GPU NVIDIA H100 и поддерживающую создание минутных роликов при сохранении качества сильного базового уровня. Мы достигли прорыва по трём ключевым направлениям: (1) устойчивость к дрейфу в длинных видео без использования распространённых эвристик против дрейфа, таких как self-forcing, error-banks или ключевые кадры; (2) генерация в реальном времени без стандартных методов ускорения, включая KV-кэширование, разреженное/линейное внимание или квантование; (3) обучение без фреймворков параллелизма или шардинга, что позволяет использовать размеры батчей, сопоставимые с диффузионными моделями для изображений, при размещении до четырёх 14-миллиардных моделей в 80 ГБ GPU-памяти. В частности, Helios представляет собой 14-миллиардную авторегрессионную диффузионную модель с унифицированным представлением входных данных, изначально поддерживающую задачи T2V, I2V и V2V. Для снижения дрейфа при генерации длинных видео мы классифицируем типичные сценарии сбоев и предлагаем простые, но эффективные стратегии обучения, явно имитирующие дрейф в процессе тренировки, одновременно устраняя повторяющееся движение на источнике. Для эффективности мы значительно сжимаем исторический и зашумлённый контекст и сокращаем количество шагов сэмплирования, что приводит к вычислительным затратам, сравнимым или меньшим, чем у 1,3-миллиардных моделей генерации видео. Кроме того, мы внедряем оптимизации на уровне инфраструктуры, ускоряющие как вывод, так и обучение, при сокращении потребления памяти. Многочисленные эксперименты демонстрируют, что Helios стабильно превосходит предыдущие методы в генерации как коротких, так и длинных видео. Мы планируем опубликовать код, базовую и дистиллированную модели для поддержки дальнейшего развития сообществом.

English

We introduce Helios, the first 14B video generation model that runs at 19.5 FPS on a single NVIDIA H100 GPU and supports minute-scale generation while matching the quality of a strong baseline. We make breakthroughs along three key dimensions: (1) robustness to long-video drifting without commonly used anti-drifting heuristics such as self-forcing, error-banks, or keyframe sampling; (2) real-time generation without standard acceleration techniques such as KV-cache, sparse/linear attention, or quantization; and (3) training without parallelism or sharding frameworks, enabling image-diffusion-scale batch sizes while fitting up to four 14B models within 80 GB of GPU memory. Specifically, Helios is a 14B autoregressive diffusion model with a unified input representation that natively supports T2V, I2V, and V2V tasks. To mitigate drifting in long-video generation, we characterize typical failure modes and propose simple yet effective training strategies that explicitly simulate drifting during training, while eliminating repetitive motion at its source. For efficiency, we heavily compress the historical and noisy context and reduce the number of sampling steps, yielding computational costs comparable to -- or lower than -- those of 1.3B video generative models. Moreover, we introduce infrastructure-level optimizations that accelerate both inference and training while reducing memory consumption. Extensive experiments demonstrate that Helios consistently outperforms prior methods on both short- and long-video generation. We plan to release the code, base model, and distilled model to support further development by the community.

Helios: Модель генерации длинных видео в реальном времени

Helios: Real Real-Time Long Video Generation Model

Аннотация

Support