Video-T1 : Mise à l'échelle au moment du test pour la génération vidéo
Video-T1: Test-Time Scaling for Video Generation
March 24, 2025
Auteurs: Fangfu Liu, Hanyang Wang, Yimo Cai, Kaiyan Zhang, Xiaohang Zhan, Yueqi Duan
cs.AI
Résumé
Avec la capacité d'augmenter les données d'entraînement, la taille des modèles et les coûts de calcul, la génération vidéo a obtenu des résultats impressionnants dans la création numérique, permettant aux utilisateurs d'exprimer leur créativité dans divers domaines. Récemment, les chercheurs en modèles de langage à grande échelle (LLMs) ont étendu cette mise à l'échelle au temps de test, ce qui peut considérablement améliorer les performances des LLMs en utilisant davantage de calculs lors de l'inférence. Plutôt que de mettre à l'échelle les modèles de base vidéo par des coûts d'entraînement élevés, nous explorons la puissance de la mise à l'échelle au temps de test (Test-Time Scaling, TTS) dans la génération vidéo, visant à répondre à la question suivante : si un modèle de génération vidéo est autorisé à utiliser une quantité non négligeable de calculs lors de l'inférence, dans quelle mesure peut-il améliorer la qualité de la génération face à un texte d'invitation complexe. Dans ce travail, nous réinterprétons la mise à l'échelle au temps de test de la génération vidéo comme un problème de recherche pour échantillonner de meilleures trajectoires depuis l'espace de bruit gaussien vers la distribution vidéo cible. Plus précisément, nous construisons l'espace de recherche avec des vérificateurs au temps de test pour fournir des retours et des algorithmes heuristiques pour guider le processus de recherche. Étant donné un texte d'invitation, nous explorons d'abord une stratégie de recherche linéaire intuitive en augmentant les candidats de bruit au moment de l'inférence. Comme le débruitage complet de toutes les images simultanément nécessite des coûts de calcul élevés au temps de test, nous concevons une méthode TTS plus efficace pour la génération vidéo appelée Arbre-de-Images (Tree-of-Frames, ToF) qui étend et élagage de manière adaptative les branches vidéo de manière autorégressive. Des expériences approfondies sur des benchmarks de génération vidéo conditionnée par texte démontrent que l'augmentation des calculs au temps de test conduit systématiquement à des améliorations significatives de la qualité des vidéos. Page du projet : https://liuff19.github.io/Video-T1
English
With the scale capability of increasing training data, model size, and
computational cost, video generation has achieved impressive results in digital
creation, enabling users to express creativity across various domains.
Recently, researchers in Large Language Models (LLMs) have expanded the scaling
to test-time, which can significantly improve LLM performance by using more
inference-time computation. Instead of scaling up video foundation models
through expensive training costs, we explore the power of Test-Time Scaling
(TTS) in video generation, aiming to answer the question: if a video generation
model is allowed to use non-trivial amount of inference-time compute, how much
can it improve generation quality given a challenging text prompt. In this
work, we reinterpret the test-time scaling of video generation as a searching
problem to sample better trajectories from Gaussian noise space to the target
video distribution. Specifically, we build the search space with test-time
verifiers to provide feedback and heuristic algorithms to guide searching
process. Given a text prompt, we first explore an intuitive linear search
strategy by increasing noise candidates at inference time. As full-step
denoising all frames simultaneously requires heavy test-time computation costs,
we further design a more efficient TTS method for video generation called
Tree-of-Frames (ToF) that adaptively expands and prunes video branches in an
autoregressive manner. Extensive experiments on text-conditioned video
generation benchmarks demonstrate that increasing test-time compute
consistently leads to significant improvements in the quality of videos.
Project page: https://liuff19.github.io/Video-T1Summary
AI-Generated Summary