Stream-T1: Test-Time Schaling voor Streaming Videogeneratie

Samenvatting

Hoewel Test-Time Scaling (TTS) een veelbelovende richting biedt om videogeneratie te verbeteren zonder de oplopende kosten van training, kampen huidige test-time videogeneratiemethoden op basis van diffusiemodellen met exorbitante kandidaatverkenkingskosten en een gebrek aan temporele sturing. Om deze structurele knelpunten aan te pakken, stellen wij voor de focus te verleggen naar streaming videogeneratie. Wij constateren dat de chunk-gewijze synthese en het beperkte aantal denoiseringsstappen hiervan intrinsiek geschikt zijn voor TTS, waardoor de rekenkosten aanzienlijk worden verlaagd en tegelijkertijd fijnmazige temporele controle mogelijk wordt. Gedreven door dit inzicht introduceerden wij Stream-T1, een baanbrekend, alomvattend TTS-raamwerk dat uitsluitend is toegesneden op streaming videogeneratie. Concreet bestaat Stream-T1 uit drie eenheden: (1) Stream-Scaled Noise Propagation, dat het initiële latente ruis van de te genereren chunk actief verfijnt met behulp van bewezen, hoogwaardige ruis van de vorige chunk, effectief temporele afhankelijkheid estableert en de historische Gaussiaanse prior gebruikt om de huidige generatie te sturen; (2) Stream-Scaled Reward Pruning, dat gegenereerde kandidaten uitgebreid evalueert om een optimale balans te vinden tussen lokale ruimtelijke esthetiek en globale temporele coherentie door onmiddellijke kortetermijnevaluaties te integreren met op een schuifvenster gebaseerde langetermijnevaluaties; (3) Stream-Scaled Memory Sinking, dat de context die uit de KV-cache wordt verdreven dynamisch routeert naar verschillende updatepaden geleid door de feedbackbeloning, zodat eerder gegenereerde visuele informatie effectief de daaropvolgende videostroom verankert en stuurt. Geëvalueerd op zowel uitgebreide 5s- als 30s-videobenchmarks toont Stream-T1 een aanzienlijke superioriteit aan, waarbij het de temporele consistentie, bewegingsvloeiendheid en framegebaseerde visuele kwaliteit significant verbetert.

English

While Test-Time Scaling (TTS) offers a promising direction to enhance video generation without the surging costs of training, current test-time video generation methods based on diffusion models suffer from exorbitant candidate exploration costs and lack temporal guidance. To address these structural bottlenecks, we propose shifting the focus to streaming video generation. We identify that its chunk-level synthesis and few denoising steps are intrinsically suited for TTS, significantly lowering computational overhead while enabling fine-grained temporal control. Driven by this insight, we introduced Stream-T1, a pioneering comprehensive TTS framework exclusively tailored for streaming video generation. Specifically, Stream-T1 is composed of three units: (1) Stream -Scaled Noise Propagation, which actively refines the initial latent noise of the generating chunk using historically proven, high-quality previous chunk noise, effectively establishes temporal dependency and utilizing the historical Gaussian prior to guide the current generation; (2) Stream -Scaled Reward Pruning, which comprehensively evaluates generated candidates to strike an optimal balance between local spatial aesthetics and global temporal coherence by integrating immediate short-term assessments with sliding-window-based long-term evaluations; (3) Stream-Scaled Memory Sinking, which dynamically routes the context evicted from KV-cache into distinct updating pathways guided by the reward feedback, ensuring that previously generated visual information effectively anchors and guides the subsequent video stream. Evaluated on both 5s and 30s comprehensive video benchmarks, Stream-T1 demonstrates profound superiority, significantly improving temporal consistency, motion smoothness, and frame-level visual quality.

Stream-T1: Test-Time Schaling voor Streaming Videogeneratie

Stream-T1: Test-Time Scaling for Streaming Video Generation

Samenvatting

Support