Video-T1: Escalado en Tiempo de Prueba para Generación de Videos
Video-T1: Test-Time Scaling for Video Generation
March 24, 2025
Autores: Fangfu Liu, Hanyang Wang, Yimo Cai, Kaiyan Zhang, Xiaohang Zhan, Yueqi Duan
cs.AI
Resumen
Con la capacidad de escalar datos de entrenamiento, tamaño de modelos y costos computacionales, la generación de videos ha logrado resultados impresionantes en la creación digital, permitiendo a los usuarios expresar su creatividad en diversos dominios. Recientemente, los investigadores en Modelos de Lenguaje de Gran Escala (LLMs) han extendido esta escalabilidad al tiempo de prueba, lo que puede mejorar significativamente el rendimiento de los LLMs al utilizar más cómputo durante la inferencia. En lugar de escalar modelos base de video mediante costosos entrenamientos, exploramos el poder de la Escalabilidad en Tiempo de Prueba (TTS) en la generación de videos, buscando responder a la pregunta: si a un modelo de generación de videos se le permite utilizar una cantidad no trivial de cómputo durante la inferencia, ¿cuánto puede mejorar la calidad de la generación dado un texto desafiante? En este trabajo, reinterpretamos la escalabilidad en tiempo de prueba de la generación de videos como un problema de búsqueda para muestrear trayectorias mejores desde el espacio de ruido gaussiano hacia la distribución de videos objetivo. Específicamente, construimos el espacio de búsqueda con verificadores en tiempo de prueba para proporcionar retroalimentación y algoritmos heurísticos para guiar el proceso de búsqueda. Dado un texto, primero exploramos una estrategia de búsqueda lineal intuitiva al aumentar los candidatos de ruido durante la inferencia. Como la eliminación de ruido en todos los fotogramas simultáneamente requiere un alto costo computacional en tiempo de prueba, diseñamos un método TTS más eficiente para la generación de videos llamado Árbol-de-Fotogramas (ToF), que expande y poda ramas de video de manera autoregresiva. Experimentos extensos en benchmarks de generación de videos condicionados por texto demuestran que aumentar el cómputo en tiempo de prueba conduce consistentemente a mejoras significativas en la calidad de los videos. Página del proyecto: https://liuff19.github.io/Video-T1
English
With the scale capability of increasing training data, model size, and
computational cost, video generation has achieved impressive results in digital
creation, enabling users to express creativity across various domains.
Recently, researchers in Large Language Models (LLMs) have expanded the scaling
to test-time, which can significantly improve LLM performance by using more
inference-time computation. Instead of scaling up video foundation models
through expensive training costs, we explore the power of Test-Time Scaling
(TTS) in video generation, aiming to answer the question: if a video generation
model is allowed to use non-trivial amount of inference-time compute, how much
can it improve generation quality given a challenging text prompt. In this
work, we reinterpret the test-time scaling of video generation as a searching
problem to sample better trajectories from Gaussian noise space to the target
video distribution. Specifically, we build the search space with test-time
verifiers to provide feedback and heuristic algorithms to guide searching
process. Given a text prompt, we first explore an intuitive linear search
strategy by increasing noise candidates at inference time. As full-step
denoising all frames simultaneously requires heavy test-time computation costs,
we further design a more efficient TTS method for video generation called
Tree-of-Frames (ToF) that adaptively expands and prunes video branches in an
autoregressive manner. Extensive experiments on text-conditioned video
generation benchmarks demonstrate that increasing test-time compute
consistently leads to significant improvements in the quality of videos.
Project page: https://liuff19.github.io/Video-T1Summary
AI-Generated Summary