ChatPaper.aiChatPaper

헬리오스: 실시간 장영상 생성 모델

Helios: Real Real-Time Long Video Generation Model

March 4, 2026
저자: Shenghai Yuan, Yuanyang Yin, Zongjian Li, Xinwei Huang, Xiao Yang, Li Yuan
cs.AI

초록

Helios를 소개합니다. 단일 NVIDIA H100 GPU에서 19.5 FPS로 동작하는 최초의 140억 파라미터 비디오 생성 모델로, 강력한 베이스라인 대비 동등한 품질을 유지하면서 분 단위 생성이 가능합니다. 우리는 세 가지 핵심 차원에서 돌파구를 마련했습니다: (1) self-forcing, error-banks, keyframe sampling 등 일반적으로 사용되는 표류 방지 휴리스틱 없이도 긴 비디오 생성 시 표류 현상에 대한 강건성, (2) KV-cache, sparse/linear attention, 양자화 등 표준 가속 기술 없이도 실시간 생성, (3) 병렬화 또는 샤딩 프레임워크 없이도 학습이 가능하며, 이미지 디퓨전 규모의 배치 크기를 유지하면서 80GB GPU 메모리 내에 최대 4개의 140억 파라미터 모델을 적재. 구체적으로 Helios는 T2V(텍스트-비디오), I2V(이미지-비디오), V2V(비디오-비디오) 작업을 기본적으로 지원하는 통합 입력 표현을 갖춘 140억 파라미터 자회귀 디퓨전 모델입니다. 긴 비디오 생성 시 표류 현상을 완화하기 위해 우리는 일반적인 실패 모드를 규명하고, 학습 중 명시적으로 표류를 시뮬레이션하는 동시에 반복적 운동을 근원적으로 제거하는 간단하면서 효과적인 학습 전략을 제안합니다. 효율성 측면에서는 잡음이 포함된 과거 컨텍스트를 강력히 압축하고 샘플링 단계 수를 줄여, 13억 파라미터 비디오 생성 모델과 동등하거나 더 낮은 계산 비용을 달성했습니다. 또한 추론과 학습을 모두 가속화하면서 메모리 소비를 줄이는 인프라 수준의 최적화를 도입했습니다. 폭넓은 실험을 통해 Helios가 단편 및 장편 비디오 생성 모두에서 기존 방법을 꾸준히 능가함을 입증했습니다. 커뮤니티의 추가 발전을 지원하기 위해 코드, 베이스 모델, 경량화 모델을 공개할 계획입니다.
English
We introduce Helios, the first 14B video generation model that runs at 19.5 FPS on a single NVIDIA H100 GPU and supports minute-scale generation while matching the quality of a strong baseline. We make breakthroughs along three key dimensions: (1) robustness to long-video drifting without commonly used anti-drifting heuristics such as self-forcing, error-banks, or keyframe sampling; (2) real-time generation without standard acceleration techniques such as KV-cache, sparse/linear attention, or quantization; and (3) training without parallelism or sharding frameworks, enabling image-diffusion-scale batch sizes while fitting up to four 14B models within 80 GB of GPU memory. Specifically, Helios is a 14B autoregressive diffusion model with a unified input representation that natively supports T2V, I2V, and V2V tasks. To mitigate drifting in long-video generation, we characterize typical failure modes and propose simple yet effective training strategies that explicitly simulate drifting during training, while eliminating repetitive motion at its source. For efficiency, we heavily compress the historical and noisy context and reduce the number of sampling steps, yielding computational costs comparable to -- or lower than -- those of 1.3B video generative models. Moreover, we introduce infrastructure-level optimizations that accelerate both inference and training while reducing memory consumption. Extensive experiments demonstrate that Helios consistently outperforms prior methods on both short- and long-video generation. We plan to release the code, base model, and distilled model to support further development by the community.
PDF1235March 6, 2026