Video-T1: Test-Time Schaling voor Videogeneratie
Video-T1: Test-Time Scaling for Video Generation
March 24, 2025
Auteurs: Fangfu Liu, Hanyang Wang, Yimo Cai, Kaiyan Zhang, Xiaohang Zhan, Yueqi Duan
cs.AI
Samenvatting
Met de mogelijkheid om trainingsdata, modelgrootte en rekenkosten op te schalen, heeft videogeneratie indrukwekkende resultaten behaald in digitale creatie, waardoor gebruikers hun creativiteit in verschillende domeinen kunnen uiten. Recentelijk hebben onderzoekers in Large Language Models (LLMs) het schalen uitgebreid naar testtijd, wat de prestaties van LLMs aanzienlijk kan verbeteren door meer rekentijd tijdens de inferentie te gebruiken. In plaats van videofundamentmodellen op te schalen via dure trainingskosten, verkennen we de kracht van Test-Time Scaling (TTS) in videogeneratie, met als doel de vraag te beantwoorden: als een videogeneratiemodel een aanzienlijke hoeveelheid rekentijd tijdens de inferentie mag gebruiken, hoeveel kan het dan de generatiekwaliteit verbeteren bij een uitdagende tekstprompt? In dit werk interpreteren we het test-time scaling van videogeneratie als een zoekprobleem om betere trajecten te bemonsteren vanuit de Gaussische ruisruimte naar de doelvideodistributie. Specifiek bouwen we de zoekruimte met test-time verifiers om feedback te geven en heuristische algoritmen om het zoekproces te begeleiden. Gegeven een tekstprompt, verkennen we eerst een intuïtieve lineaire zoekstrategie door het aantal ruiskandidaten tijdens de inferentie te verhogen. Omdat het volledig ontruisen van alle frames tegelijkertijd zware rekenkosten tijdens de testtijd vereist, ontwerpen we een efficiëntere TTS-methode voor videogeneratie genaamd Tree-of-Frames (ToF) die videotakken adaptief uitbreidt en snoeit op een autoregressieve manier. Uitgebreide experimenten op benchmarks voor tekstgeconditioneerde videogeneratie tonen aan dat het verhogen van de rekentijd tijdens de testtijd consistent leidt tot significante verbeteringen in de kwaliteit van video's. Projectpagina: https://liuff19.github.io/Video-T1
English
With the scale capability of increasing training data, model size, and
computational cost, video generation has achieved impressive results in digital
creation, enabling users to express creativity across various domains.
Recently, researchers in Large Language Models (LLMs) have expanded the scaling
to test-time, which can significantly improve LLM performance by using more
inference-time computation. Instead of scaling up video foundation models
through expensive training costs, we explore the power of Test-Time Scaling
(TTS) in video generation, aiming to answer the question: if a video generation
model is allowed to use non-trivial amount of inference-time compute, how much
can it improve generation quality given a challenging text prompt. In this
work, we reinterpret the test-time scaling of video generation as a searching
problem to sample better trajectories from Gaussian noise space to the target
video distribution. Specifically, we build the search space with test-time
verifiers to provide feedback and heuristic algorithms to guide searching
process. Given a text prompt, we first explore an intuitive linear search
strategy by increasing noise candidates at inference time. As full-step
denoising all frames simultaneously requires heavy test-time computation costs,
we further design a more efficient TTS method for video generation called
Tree-of-Frames (ToF) that adaptively expands and prunes video branches in an
autoregressive manner. Extensive experiments on text-conditioned video
generation benchmarks demonstrate that increasing test-time compute
consistently leads to significant improvements in the quality of videos.
Project page: https://liuff19.github.io/Video-T1Summary
AI-Generated Summary