Hélios : Modèle de génération de vidéos longues en temps réel véritable

Résumé

Nous présentons Helios, le premier modèle de génération vidéo 14B fonctionnant à 19,5 IPS sur une seule GPU NVIDIA H100, qui prend en charge une génération à l'échelle de la minute tout en égalant la qualité d'une base de référence solide. Nous réalisons des percées selon trois dimensions clés : (1) une robustesse à la dérive dans les vidéos longues sans les heuristiques anti-dérive couramment utilisées comme le forçage automatique, les banques d'erreurs ou l'échantillonnage d'images clés ; (2) une génération en temps réel sans les techniques d'accélération standard telles que le cache KV, l'attention clairsemée/linéaire ou la quantification ; et (3) un entraînement sans cadres de parallélisme ou de partitionnement, permettant des tailles de lot comparables à la diffusion d'images tout en logeant jusqu'à quatre modèles 14B dans 80 Go de mémoire GPU. Plus précisément, Helios est un modèle de diffusion autogressif 14B avec une représentation d'entrée unifiée qui prend nativement en charge les tâches T2V, I2V et V2V. Pour atténuer la dérive dans la génération de vidéos longues, nous caractérisons les modes d'échec typiques et proposons des stratégies d'entraînement simples mais efficaces qui simulent explicitement la dérive pendant l'entraînement, tout en éliminant à la source les mouvements répétitifs. Pour l'efficacité, nous compressons fortement le contexte historique et bruité et réduisons le nombre d'étapes d'échantillonnage, ce qui génère des coûts computationnels comparables – ou inférieurs – à ceux des modèles génératifs vidéo 1,3B. De plus, nous introduisons des optimisations au niveau de l'infrastructure qui accélèrent à la fois l'inférence et l'entraînement tout en réduisant la consommation mémoire. Des expériences approfondies démontrent qu'Helios surpasse constamment les méthodes antérieures pour la génération de vidéos courtes et longues. Nous prévoyons de publier le code, le modèle de base et le modèle distillé pour soutenir le développement ultérieur par la communauté.

English

We introduce Helios, the first 14B video generation model that runs at 19.5 FPS on a single NVIDIA H100 GPU and supports minute-scale generation while matching the quality of a strong baseline. We make breakthroughs along three key dimensions: (1) robustness to long-video drifting without commonly used anti-drifting heuristics such as self-forcing, error-banks, or keyframe sampling; (2) real-time generation without standard acceleration techniques such as KV-cache, sparse/linear attention, or quantization; and (3) training without parallelism or sharding frameworks, enabling image-diffusion-scale batch sizes while fitting up to four 14B models within 80 GB of GPU memory. Specifically, Helios is a 14B autoregressive diffusion model with a unified input representation that natively supports T2V, I2V, and V2V tasks. To mitigate drifting in long-video generation, we characterize typical failure modes and propose simple yet effective training strategies that explicitly simulate drifting during training, while eliminating repetitive motion at its source. For efficiency, we heavily compress the historical and noisy context and reduce the number of sampling steps, yielding computational costs comparable to -- or lower than -- those of 1.3B video generative models. Moreover, we introduce infrastructure-level optimizations that accelerate both inference and training while reducing memory consumption. Extensive experiments demonstrate that Helios consistently outperforms prior methods on both short- and long-video generation. We plan to release the code, base model, and distilled model to support further development by the community.

Hélios : Modèle de génération de vidéos longues en temps réel véritable

Helios: Real Real-Time Long Video Generation Model

Résumé

Support