ChatPaper.aiChatPaper

Stream-T1: Масштабирование в режиме тестирования для потоковой генерации видео

Stream-T1: Test-Time Scaling for Streaming Video Generation

May 6, 2026
Авторы: Yijing Tu, Shaojin Wu, Mengqi Huang, Wenchuan Wang, Yuxin Wang, Chunxiao Liu, Zhendong Mao
cs.AI

Аннотация

Хотя масштабирование во время тестирования (Test-Time Scaling, TTS) открывает перспективное направление для улучшения генерации видео без стремительного роста затрат на обучение, современные методы генерации видео во время тестирования на основе диффузионных моделей страдают от непомерно высоких затрат на исследование кандидатов и отсутствия временного контроля. Для преодоления этих структурных ограничений мы предлагаем сместить фокус на потоковую генерацию видео. Мы выявили, что её поблочный синтез и малое количество шагов денойзинга внутренне приспособлены для TTS, что значительно снижает вычислительные затраты и одновременно обеспечивает детальный временной контроль. Руководствуясь этим наблюдением, мы представили Stream-T1 — новаторскую комплексную TTS-структуру, разработанную исключительно для потоковой генерации видео. Конкретно Stream-T1 состоит из трёх модулей: (1) *Потоковое масштабируемое распространение шума* — активно улучшает начальный латентный шум генерируемого блока, используя исторически подтверждённый, высококачественный шум предыдущего блока, эффективно устанавливает временную зависимость и использует гауссовский априор из прошлого для управления текущей генерацией; (2) *Потоковая масштабируемая отсечка по вознаграждению* — всесторонне оценивает сгенерированных кандидатов, чтобы найти оптимальный баланс между локальной пространственной эстетикой и глобальной временной согласованностью, интегрируя мгновенные краткосрочные оценки с долгосрочными оценками на основе скользящего окна; (3) *Потоковое масштабируемое погружение в память* — динамически направляет контекст, вытесненный из KV-кэша, по различным путям обновления под руководством обратной связи по вознаграждению, гарантируя, что ранее сгенерированная визуальная информация эффективно закрепляется и направляет последующий видеопоток. По результатам оценки на комплексных эталонах для видео длительностью 5 и 30 секунд Stream-T1 демонстрирует значительное превосходство, существенно улучшая временную согласованность, плавность движения и визуальное качество на уровне кадров.
English
While Test-Time Scaling (TTS) offers a promising direction to enhance video generation without the surging costs of training, current test-time video generation methods based on diffusion models suffer from exorbitant candidate exploration costs and lack temporal guidance. To address these structural bottlenecks, we propose shifting the focus to streaming video generation. We identify that its chunk-level synthesis and few denoising steps are intrinsically suited for TTS, significantly lowering computational overhead while enabling fine-grained temporal control. Driven by this insight, we introduced Stream-T1, a pioneering comprehensive TTS framework exclusively tailored for streaming video generation. Specifically, Stream-T1 is composed of three units: (1) Stream -Scaled Noise Propagation, which actively refines the initial latent noise of the generating chunk using historically proven, high-quality previous chunk noise, effectively establishes temporal dependency and utilizing the historical Gaussian prior to guide the current generation; (2) Stream -Scaled Reward Pruning, which comprehensively evaluates generated candidates to strike an optimal balance between local spatial aesthetics and global temporal coherence by integrating immediate short-term assessments with sliding-window-based long-term evaluations; (3) Stream-Scaled Memory Sinking, which dynamically routes the context evicted from KV-cache into distinct updating pathways guided by the reward feedback, ensuring that previously generated visual information effectively anchors and guides the subsequent video stream. Evaluated on both 5s and 30s comprehensive video benchmarks, Stream-T1 demonstrates profound superiority, significantly improving temporal consistency, motion smoothness, and frame-level visual quality.
PDF931May 8, 2026