Stream-T1: Test-Time-Skalierung für Streaming-Videogenerierung
Stream-T1: Test-Time Scaling for Streaming Video Generation
May 6, 2026
Autoren: Yijing Tu, Shaojin Wu, Mengqi Huang, Wenchuan Wang, Yuxin Wang, Chunxiao Liu, Zhendong Mao
cs.AI
Zusammenfassung
Während Test-Time Scaling (TTS) eine vielversprechende Richtung zur Verbesserung der Videogenerierung ohne die explodierenden Kosten des Trainings bietet, leiden aktuelle testzeitbasierte Videogenerierungsmethoden auf Basis von Diffusionsmodellen unter exorbitanten Kandidatenexplorationskosten und einem Mangel an temporärer Führung. Um diese strukturellen Engpässe zu adressieren, schlagen wir vor, den Fokus auf die Streaming-Videogenerierung zu verlagern. Wir stellen fest, dass deren chunk-basierte Synthese und geringe Anzahl an Denoising-Schritten intrinsisch für TTS geeignet sind, was den Rechenaufwand erheblich senkt und gleichzeitig eine feingranulare temporäre Steuerung ermöglicht. Aufbauend auf dieser Erkenntnis haben wir Stream-T1 eingeführt, ein wegweisendes, umfassendes TTS-Framework, das exklusiv für die Streaming-Videogenerierung konzipiert ist. Konkret besteht Stream-T1 aus drei Einheiten: (1) **Stream-Scaled Noise Propagation**, das das initiale latente Rauschen des zu generierenden Chunks aktiviv unter Verwendung von historisch bewährtem, hochwertigem Rauschen vorheriger Chunks verfeinert, effektiv temporäre Abhängigkeiten herstellt und die historische Gauß-Priorität zur Führung der aktuellen Generierung nutzt; (2) **Stream-Scaled Reward Pruning**, das generierte Kandidaten umfassend bewertet, um eine optimale Balance zwischen lokaler räumlicher Ästhetik und globaler temporärer Kohärenz zu finden, indem es unmittelbare Kurzzeitbewertungen mit gleitfensterbasierten Langzeitbewertungen integriert; (3) **Stream-Scaled Memory Sinking**, das den aus dem KV-Cache verdrängten Kontext dynamisch an verschiedene, durch Reward-Feedback gesteuerte Aktualisierungspfade weiterleitet und sicherstellt, dass zuvor generierte visuelle Informationen den nachfolgenden Videostrom effektiv verankern und führen. Evaluierungen auf umfassenden 5-Sekunden- und 30-Sekunden-Videobenchmarks demonstrieren die deutliche Überlegenheit von Stream-T1, das die zeitliche Konsistenz, Bewegungsflüssigkeit und die bildbezogene visuelle Qualität signifikant verbessert.
English
While Test-Time Scaling (TTS) offers a promising direction to enhance video generation without the surging costs of training, current test-time video generation methods based on diffusion models suffer from exorbitant candidate exploration costs and lack temporal guidance. To address these structural bottlenecks, we propose shifting the focus to streaming video generation. We identify that its chunk-level synthesis and few denoising steps are intrinsically suited for TTS, significantly lowering computational overhead while enabling fine-grained temporal control. Driven by this insight, we introduced Stream-T1, a pioneering comprehensive TTS framework exclusively tailored for streaming video generation. Specifically, Stream-T1 is composed of three units: (1) Stream -Scaled Noise Propagation, which actively refines the initial latent noise of the generating chunk using historically proven, high-quality previous chunk noise, effectively establishes temporal dependency and utilizing the historical Gaussian prior to guide the current generation; (2) Stream -Scaled Reward Pruning, which comprehensively evaluates generated candidates to strike an optimal balance between local spatial aesthetics and global temporal coherence by integrating immediate short-term assessments with sliding-window-based long-term evaluations; (3) Stream-Scaled Memory Sinking, which dynamically routes the context evicted from KV-cache into distinct updating pathways guided by the reward feedback, ensuring that previously generated visual information effectively anchors and guides the subsequent video stream. Evaluated on both 5s and 30s comprehensive video benchmarks, Stream-T1 demonstrates profound superiority, significantly improving temporal consistency, motion smoothness, and frame-level visual quality.