ChatPaper.aiChatPaper

Stream-T1 : Mise à l'échelle en temps de test pour la génération de vidéo en flux continu

Stream-T1: Test-Time Scaling for Streaming Video Generation

May 6, 2026
Auteurs: Yijing Tu, Shaojin Wu, Mengqi Huang, Wenchuan Wang, Yuxin Wang, Chunxiao Liu, Zhendong Mao
cs.AI

Résumé

Bien que la mise à l'échelle au moment du test (TTS) offre une perspective prometteuse pour améliorer la génération vidéo sans les coûts exponentiels de l'entraînement, les méthodes actuelles de génération vidéo au moment du test basées sur les modèles de diffusion souffrent de coûts d'exploration de candidats exorbitants et d'un manque de guidage temporel. Pour résoudre ces goulots d'étranglement structurels, nous proposons de recentrer l'attention sur la génération vidéo en flux continu. Nous identifions que sa synthèse au niveau des segments et son faible nombre d'étapes de débruitage sont intrinsèquement adaptés au TTS, réduisant significativement la surcharge computationnelle tout en permettant un contrôle temporel fin. Motivés par cette intuition, nous avons introduit Stream-T1, un cadre TTS complet et pionnier, exclusivement conçu pour la génération vidéo en flux continu. Plus précisément, Stream-T1 est composé de trois unités : (1) la Propagation du Bruit Mise à l'Échelle en Flux, qui affine activement le bruit latent initial du segment en génération en utilisant le bruit de segments précédents historiquement validés et de haute qualité, établissant efficacement une dépendance temporelle et exploitant l'a priori gaussien historique pour guider la génération courante ; (2) l'Élagage par Récompense Mise à l'Échelle en Flux, qui évalue de manière exhaustive les candidats générés pour trouver un équilibre optimal entre l'esthétique spatiale locale et la cohérence temporelle globale, en intégrant des évaluations immédiates à court terme avec des évaluations à long terme basées sur une fenêtre glissante ; (3) la Mise en Mémoire Mise à l'Échelle en Flux, qui achemine dynamiquement le contexte évincé du cache KV vers des voies de mise à jour distinctes guidées par le retour de récompense, garantissant que les informations visuelles précédemment générées ancrent et guident efficacement le flux vidéo subséquent. Évalué sur des benchmarks vidéo complets de 5s et 30s, Stream-T1 démontre une supériorité marquée, améliorant significativement la cohérence temporelle, la fluidité du mouvement et la qualité visuelle au niveau de l'image.
English
While Test-Time Scaling (TTS) offers a promising direction to enhance video generation without the surging costs of training, current test-time video generation methods based on diffusion models suffer from exorbitant candidate exploration costs and lack temporal guidance. To address these structural bottlenecks, we propose shifting the focus to streaming video generation. We identify that its chunk-level synthesis and few denoising steps are intrinsically suited for TTS, significantly lowering computational overhead while enabling fine-grained temporal control. Driven by this insight, we introduced Stream-T1, a pioneering comprehensive TTS framework exclusively tailored for streaming video generation. Specifically, Stream-T1 is composed of three units: (1) Stream -Scaled Noise Propagation, which actively refines the initial latent noise of the generating chunk using historically proven, high-quality previous chunk noise, effectively establishes temporal dependency and utilizing the historical Gaussian prior to guide the current generation; (2) Stream -Scaled Reward Pruning, which comprehensively evaluates generated candidates to strike an optimal balance between local spatial aesthetics and global temporal coherence by integrating immediate short-term assessments with sliding-window-based long-term evaluations; (3) Stream-Scaled Memory Sinking, which dynamically routes the context evicted from KV-cache into distinct updating pathways guided by the reward feedback, ensuring that previously generated visual information effectively anchors and guides the subsequent video stream. Evaluated on both 5s and 30s comprehensive video benchmarks, Stream-T1 demonstrates profound superiority, significantly improving temporal consistency, motion smoothness, and frame-level visual quality.
PDF931May 8, 2026