Helios: Een Model voor het Genereren van Lange Video's in Echt Real-Time

Samenvatting

Wij introduceren Helios, het eerste 14B-videogeneratiemodel dat met 19,5 FPS draait op een enkele NVIDIA H100 GPU en minutenlange generatie ondersteunt, terwijl het de kwaliteit evenaart van een sterke baseline. Wij boeken doorbraken op drie cruciale dimensies: (1) robuustheid tegen drifting in lange video's zonder veelgebruikte anti-driftingheuristieken zoals self-forcing, error-banks of keyframe sampling; (2) realtime-generatie zonder standaardversnellings-technieken zoals KV-cache, sparse/lineaire aandacht of kwantisering; en (3) training zonder parallelle of gesharde frameworks, waardoor batchgroottes op het niveau van beelddiffusie mogelijk zijn terwijl tot vier 14B-modellen in 80 GB GPU-geheugen passen. Concreet is Helios een 14B autoregressief diffusiemodel met een uniforme invoerweergave die T2V-, I2V- en V2V-taken native ondersteunt. Om drifting bij lange-videogeneratie tegen te gaan, karakteriseren we typische faalmodi en introduceren we eenvoudige maar effectieve trainingsstrategieën die drifting expliciet simuleren tijdens de training, terwijl repetitieve beweging bij de bron wordt geëlimineerd. Voor efficiëntie comprimeren we de historische en ruiscontext sterk en verminderen we het aantal samplingstappen, wat resulteert in computationele kosten die vergelijkbaar zijn met – of lager dan – die van 1,3B videogeneratieve modellen. Bovendien introduceren we infrastructuuroptimalisaties die zowel inferentie als training versnellen en het geheugengebruik verminderen. Uitgebreide experimenten tonen aan dat Helios consistente superieure prestaties levert ten opzichte van eerdere methoden voor zowel korte als lange videogeneratie. Wij zijn van plan de code, het basismodel en het gedistilleerde model vrij te geven om verdere ontwikkeling door de gemeenschap te ondersteunen.

English

We introduce Helios, the first 14B video generation model that runs at 19.5 FPS on a single NVIDIA H100 GPU and supports minute-scale generation while matching the quality of a strong baseline. We make breakthroughs along three key dimensions: (1) robustness to long-video drifting without commonly used anti-drifting heuristics such as self-forcing, error-banks, or keyframe sampling; (2) real-time generation without standard acceleration techniques such as KV-cache, sparse/linear attention, or quantization; and (3) training without parallelism or sharding frameworks, enabling image-diffusion-scale batch sizes while fitting up to four 14B models within 80 GB of GPU memory. Specifically, Helios is a 14B autoregressive diffusion model with a unified input representation that natively supports T2V, I2V, and V2V tasks. To mitigate drifting in long-video generation, we characterize typical failure modes and propose simple yet effective training strategies that explicitly simulate drifting during training, while eliminating repetitive motion at its source. For efficiency, we heavily compress the historical and noisy context and reduce the number of sampling steps, yielding computational costs comparable to -- or lower than -- those of 1.3B video generative models. Moreover, we introduce infrastructure-level optimizations that accelerate both inference and training while reducing memory consumption. Extensive experiments demonstrate that Helios consistently outperforms prior methods on both short- and long-video generation. We plan to release the code, base model, and distilled model to support further development by the community.

Helios: Een Model voor het Genereren van Lange Video's in Echt Real-Time

Helios: Real Real-Time Long Video Generation Model

Samenvatting

Support