Helios: Modello di Generazione di Video Lunghi in Tempo Reale Vero

Abstract

Presentiamo Helios, il primo modello di generazione video da 14B che opera a 19,5 FPS su una singola GPU NVIDIA H100, supporta generazioni su scala di minuti e mantiene una qualità equivalente a un solido baseline. Raggiungiamo progressi fondamentali lungo tre dimensioni chiave: (1) robustezza contro la deriva nei video lunghi senza ricorrere a euristiche anti-deriva comunemente utilizzate come self-forcing, error-banks o campionamento di keyframe; (2) generazione in tempo reale senza tecniche standard di accelerazione come KV-cache, attenzione sparsa/lineare o quantizzazione; e (3) addestramento senza framework di parallelismo o sharding, consentendo batch size paragonabili alla diffusione di immagini e ospitando fino a quattro modelli da 14B entro 80 GB di memoria GPU. Nello specifico, Helios è un modello di diffusione autoregressivo da 14B con una rappresentazione di input unificata che supporta nativamente i task T2V, I2V e V2V. Per mitigare la deriva nella generazione di video lunghi, caratterizziamo le tipiche modalità di fallimento e proponiamo strategie di addestramento semplici ma efficaci che simulano esplicitamente la deriva durante il training, eliminando alla fonte il moto ripetitivo. Per l'efficienza, comprimiamo fortemente il contesto storico e rumoroso e riduciamo il numero di passi di campionamento, ottenendo costi computabili paragonabili – o inferiori – a quelli di modelli generativi video da 1,3B. Inoltre, introduciamo ottimizzazioni a livello infrastrutturale che accelerano sia l'inferenza che l'addestramento riducendo il consumo di memoria. Esperimenti estensivi dimostrano che Helios supera costantemente i metodi precedenti sia nella generazione di video brevi che lunghi. Pianifichiamo di rilasciare il codice, il modello base e il modello distillato per supportare l'ulteriore sviluppo da parte della comunità.

English

We introduce Helios, the first 14B video generation model that runs at 19.5 FPS on a single NVIDIA H100 GPU and supports minute-scale generation while matching the quality of a strong baseline. We make breakthroughs along three key dimensions: (1) robustness to long-video drifting without commonly used anti-drifting heuristics such as self-forcing, error-banks, or keyframe sampling; (2) real-time generation without standard acceleration techniques such as KV-cache, sparse/linear attention, or quantization; and (3) training without parallelism or sharding frameworks, enabling image-diffusion-scale batch sizes while fitting up to four 14B models within 80 GB of GPU memory. Specifically, Helios is a 14B autoregressive diffusion model with a unified input representation that natively supports T2V, I2V, and V2V tasks. To mitigate drifting in long-video generation, we characterize typical failure modes and propose simple yet effective training strategies that explicitly simulate drifting during training, while eliminating repetitive motion at its source. For efficiency, we heavily compress the historical and noisy context and reduce the number of sampling steps, yielding computational costs comparable to -- or lower than -- those of 1.3B video generative models. Moreover, we introduce infrastructure-level optimizations that accelerate both inference and training while reducing memory consumption. Extensive experiments demonstrate that Helios consistently outperforms prior methods on both short- and long-video generation. We plan to release the code, base model, and distilled model to support further development by the community.

Helios: Modello di Generazione di Video Lunghi in Tempo Reale Vero

Helios: Real Real-Time Long Video Generation Model

Abstract

Support