Helios: Um Modelo de Geração de Vídeos Longos em Tempo Real Verdadeiro

Resumo

Apresentamos o Helios, o primeiro modelo de geração de vídeo de 14B que opera a 19,5 FPS em uma única GPU NVIDIA H100 e suporta geração em escala de minutos, equiparando-se em qualidade a uma linha de base robusta. Realizamos avanços em três dimensões principais: (1) robustez contra desvio (drifting) em vídeos longos sem o uso das heurísticas anti-desvio comuns, como auto-forçamento, bancos de erro ou amostragem de quadros-chave; (2) geração em tempo real sem técnicas padrão de aceleração, como cache KV, atenção esparsa/linear ou quantização; e (3) treinamento sem frameworks de paralelismo ou fragmentação (sharding), permitindo tamanhos de lote equivalentes aos de modelos de difusão de imagem enquanto acomoda até quatro modelos de 14B em 80 GB de memória GPU. Especificamente, o Helios é um modelo de difusão autoregressivo de 14B com uma representação de entrada unificada que suporta nativamente as tarefas T2V (texto para vídeo), I2V (imagem para vídeo) e V2V (vídeo para vídeo). Para mitigar o desvio na geração de vídeos longos, caracterizamos os modos de falha típicos e propomos estratégias de treinamento simples, porém eficazes, que simulam explicitamente o desvio durante o treinamento, eliminando simultaneamente o movimento repetitivo em sua origem. Para eficiência, comprimimos massivamente o contexto histórico e ruidoso e reduzimos o número de etapas de amostragem, resultando em custos computacionais comparáveis — ou inferiores — aos dos modelos generativos de vídeo de 1,3B. Além disso, introduzimos otimizações em nível de infraestrutura que aceleram tanto a inferência quanto o treinamento, reduzindo o consumo de memória. Experimentos extensivos demonstram que o Helios supera consistentemente os métodos anteriores na geração de vídeos curtos e longos. Planejamos disponibilizar o código, o modelo base e o modelo destilado para apoiar o desenvolvimento adicional pela comunidade.

English

We introduce Helios, the first 14B video generation model that runs at 19.5 FPS on a single NVIDIA H100 GPU and supports minute-scale generation while matching the quality of a strong baseline. We make breakthroughs along three key dimensions: (1) robustness to long-video drifting without commonly used anti-drifting heuristics such as self-forcing, error-banks, or keyframe sampling; (2) real-time generation without standard acceleration techniques such as KV-cache, sparse/linear attention, or quantization; and (3) training without parallelism or sharding frameworks, enabling image-diffusion-scale batch sizes while fitting up to four 14B models within 80 GB of GPU memory. Specifically, Helios is a 14B autoregressive diffusion model with a unified input representation that natively supports T2V, I2V, and V2V tasks. To mitigate drifting in long-video generation, we characterize typical failure modes and propose simple yet effective training strategies that explicitly simulate drifting during training, while eliminating repetitive motion at its source. For efficiency, we heavily compress the historical and noisy context and reduce the number of sampling steps, yielding computational costs comparable to -- or lower than -- those of 1.3B video generative models. Moreover, we introduce infrastructure-level optimizations that accelerate both inference and training while reducing memory consumption. Extensive experiments demonstrate that Helios consistently outperforms prior methods on both short- and long-video generation. We plan to release the code, base model, and distilled model to support further development by the community.

Helios: Um Modelo de Geração de Vídeos Longos em Tempo Real Verdadeiro

Helios: Real Real-Time Long Video Generation Model

Resumo

Support