Helios: Modelo de Generación de Vídeo Largo en Tiempo Real Auténtico

Resumen

Presentamos Helios, el primer modelo de generación de vídeo de 14B que funciona a 19,5 FPS en una única GPU NVIDIA H100 y admite generación a escala de minutos, igualando la calidad de una línea base sólida. Logramos avances en tres dimensiones clave: (1) robustez frente a la deriva en vídeos largos sin utilizar heurísticas anti-deriva comunes como el auto-forzado, bancos de error o muestreo de fotogramas clave; (2) generación en tiempo real sin técnicas estándar de aceleración como caché KV, atención dispersa/lineal o cuantización; y (3) entrenamiento sin frameworks de paralelismo o fragmentación, permitiendo tamaños de lote propios de difusión de imágenes mientras se alojan hasta cuatro modelos de 14B en 80 GB de memoria GPU. Específicamente, Helios es un modelo de difusión autoregresivo de 14B con una representación de entrada unificada que admite de forma nativa tareas T2V, I2V y V2V. Para mitigar la deriva en la generación de vídeos largos, caracterizamos los modos de fallo típicos y proponemos estrategias de entrenamiento simples pero efectivas que simulan explícitamente la deriva durante el entrenamiento, eliminando simultáneamente el movimiento repetitivo en su origen. Para la eficiencia, comprimimos masivamente el contexto histórico y ruidoso y reducimos el número de pasos de muestreo, obteniendo costes computacionales comparables —o inferiores— a los de modelos generativos de vídeo de 1,3B. Además, introducimos optimizaciones a nivel de infraestructura que aceleran tanto la inferencia como el entrenamiento mientras reducen el consumo de memoria. Experimentos exhaustivos demuestran que Helios supera consistentemente a métodos anteriores en generación de vídeos cortos y largos. Planeamos publicar el código, el modelo base y el modelo destilado para apoyar el desarrollo futuro de la comunidad.

English

We introduce Helios, the first 14B video generation model that runs at 19.5 FPS on a single NVIDIA H100 GPU and supports minute-scale generation while matching the quality of a strong baseline. We make breakthroughs along three key dimensions: (1) robustness to long-video drifting without commonly used anti-drifting heuristics such as self-forcing, error-banks, or keyframe sampling; (2) real-time generation without standard acceleration techniques such as KV-cache, sparse/linear attention, or quantization; and (3) training without parallelism or sharding frameworks, enabling image-diffusion-scale batch sizes while fitting up to four 14B models within 80 GB of GPU memory. Specifically, Helios is a 14B autoregressive diffusion model with a unified input representation that natively supports T2V, I2V, and V2V tasks. To mitigate drifting in long-video generation, we characterize typical failure modes and propose simple yet effective training strategies that explicitly simulate drifting during training, while eliminating repetitive motion at its source. For efficiency, we heavily compress the historical and noisy context and reduce the number of sampling steps, yielding computational costs comparable to -- or lower than -- those of 1.3B video generative models. Moreover, we introduce infrastructure-level optimizations that accelerate both inference and training while reducing memory consumption. Extensive experiments demonstrate that Helios consistently outperforms prior methods on both short- and long-video generation. We plan to release the code, base model, and distilled model to support further development by the community.

Helios: Modelo de Generación de Vídeo Largo en Tiempo Real Auténtico

Helios: Real Real-Time Long Video Generation Model

Resumen

Support