ChatPaper.aiChatPaper

Helios: 真のリアルタイム長尺動画生成モデル

Helios: Real Real-Time Long Video Generation Model

March 4, 2026
著者: Shenghai Yuan, Yuanyang Yin, Zongjian Li, Xinwei Huang, Xiao Yang, Li Yuan
cs.AI

要旨

本論文では、Heliosを紹介する。これは14Bパラメータのビデオ生成モデルとして初めて、単一のNVIDIA H100 GPU上で19.5 FPSを達成し、強力なベースラインと同等の品質を維持しながら分単位の生成を可能にする。我々は以下の3つの重要次元で画期的な進展を遂げた:(1)自己強制、エラーバンク、キーフレームサンプリングなどの一般的なドリフト対策手法を用いずに長尺ビデオのドリフトに対する頑健性を実現;(2)KVキャッシュ、疎/線形注意機構、量子化などの標準的加速技術なしでリアルタイム生成を達成;(3)並列化やシャーディングフレームワークを用いない学習により、画像拡散モデル規模のバッチサイズを実現しつつ、80GBのGPUメモリ内に最大4つの14Bモデルを配置可能。具体的には、Heliosは14Bパラメータの自己回帰型拡散モデルであり、T2V(テキストからビデオ)、I2V(画像からビデオ)、V2V(ビデオからビデオ)タスクをネイティブにサポートする統合入力表現を採用する。長尺ビデオ生成におけるドリフト軽減のため、典型的な失敗モードを特徴付け、訓練中に明示的にドリフトを模擬する簡潔かつ効果的な訓練戦略を提案するとともに、反復運動を根源的に排除する。効率性に関しては、履歴情報とノイズコンテキストを大幅に圧縮し、サンプリングステップ数を削減することで、1.3Bビデオ生成モデルと同等あるいはそれ以下の計算コストを実現する。さらに、推論と訓練の両方を加速しメモリ消費を削減するインフラストラクチャレベルの最適化を導入する。大規模な実験により、Heliosが短尺・長尺双方のビデオ生成において従来手法を一貫して凌駕することを実証する。コード、ベースモデル、蒸留モデルを公開し、コミュニティのさらなる発展を支援する予定である。
English
We introduce Helios, the first 14B video generation model that runs at 19.5 FPS on a single NVIDIA H100 GPU and supports minute-scale generation while matching the quality of a strong baseline. We make breakthroughs along three key dimensions: (1) robustness to long-video drifting without commonly used anti-drifting heuristics such as self-forcing, error-banks, or keyframe sampling; (2) real-time generation without standard acceleration techniques such as KV-cache, sparse/linear attention, or quantization; and (3) training without parallelism or sharding frameworks, enabling image-diffusion-scale batch sizes while fitting up to four 14B models within 80 GB of GPU memory. Specifically, Helios is a 14B autoregressive diffusion model with a unified input representation that natively supports T2V, I2V, and V2V tasks. To mitigate drifting in long-video generation, we characterize typical failure modes and propose simple yet effective training strategies that explicitly simulate drifting during training, while eliminating repetitive motion at its source. For efficiency, we heavily compress the historical and noisy context and reduce the number of sampling steps, yielding computational costs comparable to -- or lower than -- those of 1.3B video generative models. Moreover, we introduce infrastructure-level optimizations that accelerate both inference and training while reducing memory consumption. Extensive experiments demonstrate that Helios consistently outperforms prior methods on both short- and long-video generation. We plan to release the code, base model, and distilled model to support further development by the community.
PDF1235March 6, 2026