Stream-T1: Escalado en Tiempo de Prueba para la Generación de Vídeo en Flujo Continuo
Stream-T1: Test-Time Scaling for Streaming Video Generation
May 6, 2026
Autores: Yijing Tu, Shaojin Wu, Mengqi Huang, Wenchuan Wang, Yuxin Wang, Chunxiao Liu, Zhendong Mao
cs.AI
Resumen
Si bien el escalado en tiempo de prueba (TTS) ofrece una dirección prometedora para mejorar la generación de vídeo sin los crecientes costes de entrenamiento, los métodos actuales de generación de vídeo en tiempo de prueba basados en modelos de difusión adolecen de costes exorbitantes de exploración de candidatos y carecen de guía temporal. Para abordar estos cuellos de botella estructurales, proponemos cambiar el enfoque hacia la generación de vídeo en flujo continuo (streaming). Identificamos que su síntesis a nivel de fragmento (chunk) y sus pocos pasos de desruido son intrínsecamente adecuados para TTS, reduciendo significativamente la sobrecarga computacional y permitiendo al mismo tiempo un control temporal de grano fino. Impulsados por esta idea, presentamos Stream-T1, un pionero marco integral de TTS exclusivamente diseñado para la generación de vídeo en flujo continuo. Específicamente, Stream-T1 se compone de tres unidades: (1) Propagación de Ruido Escalada por Flujo (Stream-Scaled Noise Propagation), que refina activamente el ruido latente inicial del fragmento en generación utilizando ruido de fragmentos anteriores históricamente probado y de alta calidad, estableciendo eficazmente la dependencia temporal y utilizando el previo gaussiano histórico para guiar la generación actual; (2) Poda por Recompensa Escalada por Flujo (Stream-Scaled Reward Pruning), que evalúa exhaustivamente a los candidatos generados para lograr un equilibrio óptimo entre la estética espacial local y la coherencia temporal global, integrando evaluaciones inmediatas a corto plazo con evaluaciones a largo plazo basadas en ventanas deslizantes; (3) Hundimiento de Memoria Escalado por Flujo (Stream-Scaled Memory Sinking), que enruta dinámicamente el contexto expulsado de la caché KV hacia distintas rutas de actualización guiadas por la retroalimentación de recompensa, garantizando que la información visual previamente generada ancle y guíe efectivamente el flujo de vídeo subsiguiente. Evaluado en benchmarks exhaustivos de vídeo de 5s y 30s, Stream-T1 demuestra una superioridad profunda, mejorando significativamente la consistencia temporal, la suavidad del movimiento y la calidad visual a nivel de fotograma.
English
While Test-Time Scaling (TTS) offers a promising direction to enhance video generation without the surging costs of training, current test-time video generation methods based on diffusion models suffer from exorbitant candidate exploration costs and lack temporal guidance. To address these structural bottlenecks, we propose shifting the focus to streaming video generation. We identify that its chunk-level synthesis and few denoising steps are intrinsically suited for TTS, significantly lowering computational overhead while enabling fine-grained temporal control. Driven by this insight, we introduced Stream-T1, a pioneering comprehensive TTS framework exclusively tailored for streaming video generation. Specifically, Stream-T1 is composed of three units: (1) Stream -Scaled Noise Propagation, which actively refines the initial latent noise of the generating chunk using historically proven, high-quality previous chunk noise, effectively establishes temporal dependency and utilizing the historical Gaussian prior to guide the current generation; (2) Stream -Scaled Reward Pruning, which comprehensively evaluates generated candidates to strike an optimal balance between local spatial aesthetics and global temporal coherence by integrating immediate short-term assessments with sliding-window-based long-term evaluations; (3) Stream-Scaled Memory Sinking, which dynamically routes the context evicted from KV-cache into distinct updating pathways guided by the reward feedback, ensuring that previously generated visual information effectively anchors and guides the subsequent video stream. Evaluated on both 5s and 30s comprehensive video benchmarks, Stream-T1 demonstrates profound superiority, significantly improving temporal consistency, motion smoothness, and frame-level visual quality.