Video-T1: Escalonamento em Tempo de Teste para Geração de Vídeo
Video-T1: Test-Time Scaling for Video Generation
March 24, 2025
Autores: Fangfu Liu, Hanyang Wang, Yimo Cai, Kaiyan Zhang, Xiaohang Zhan, Yueqi Duan
cs.AI
Resumo
Com a capacidade de escalar dados de treinamento, tamanho do modelo e custo computacional, a geração de vídeo tem alcançado resultados impressionantes na criação digital, permitindo que os usuários expressem sua criatividade em diversos domínios. Recentemente, pesquisadores em Modelos de Linguagem de Grande Escala (LLMs) expandiram a escalabilidade para o tempo de teste, o que pode melhorar significativamente o desempenho dos LLMs ao utilizar mais computação durante a inferência. Em vez de escalar modelos de base de vídeo por meio de custos de treinamento elevados, exploramos o poder da Escalabilidade em Tempo de Teste (TTS) na geração de vídeo, com o objetivo de responder à pergunta: se um modelo de geração de vídeo puder usar uma quantidade não trivial de computação durante a inferência, quanto ele pode melhorar a qualidade da geração diante de um prompt de texto desafiador? Neste trabalho, reinterpretamos a escalabilidade em tempo de teste da geração de vídeo como um problema de busca para amostrar trajetórias melhores do espaço de ruído gaussiano para a distribuição de vídeo alvo. Especificamente, construímos o espaço de busca com verificadores em tempo de teste para fornecer feedback e algoritmos heurísticos para guiar o processo de busca. Dado um prompt de texto, primeiro exploramos uma estratégia de busca linear intuitiva, aumentando os candidatos de ruído durante a inferência. Como a remoção de ruído em todos os quadros simultaneamente exige um custo computacional pesado em tempo de teste, projetamos um método TTS mais eficiente para geração de vídeo, chamado Árvore de Quadros (ToF), que expande e poda ramificações de vídeo de forma autorregressiva. Experimentos extensivos em benchmarks de geração de vídeo condicionada por texto demonstram que o aumento da computação em tempo de teste leva consistentemente a melhorias significativas na qualidade dos vídeos. Página do projeto: https://liuff19.github.io/Video-T1
English
With the scale capability of increasing training data, model size, and
computational cost, video generation has achieved impressive results in digital
creation, enabling users to express creativity across various domains.
Recently, researchers in Large Language Models (LLMs) have expanded the scaling
to test-time, which can significantly improve LLM performance by using more
inference-time computation. Instead of scaling up video foundation models
through expensive training costs, we explore the power of Test-Time Scaling
(TTS) in video generation, aiming to answer the question: if a video generation
model is allowed to use non-trivial amount of inference-time compute, how much
can it improve generation quality given a challenging text prompt. In this
work, we reinterpret the test-time scaling of video generation as a searching
problem to sample better trajectories from Gaussian noise space to the target
video distribution. Specifically, we build the search space with test-time
verifiers to provide feedback and heuristic algorithms to guide searching
process. Given a text prompt, we first explore an intuitive linear search
strategy by increasing noise candidates at inference time. As full-step
denoising all frames simultaneously requires heavy test-time computation costs,
we further design a more efficient TTS method for video generation called
Tree-of-Frames (ToF) that adaptively expands and prunes video branches in an
autoregressive manner. Extensive experiments on text-conditioned video
generation benchmarks demonstrate that increasing test-time compute
consistently leads to significant improvements in the quality of videos.
Project page: https://liuff19.github.io/Video-T1Summary
AI-Generated Summary