Video-T1: ビデオ生成のためのテストタイムスケーリング
Video-T1: Test-Time Scaling for Video Generation
March 24, 2025
著者: Fangfu Liu, Hanyang Wang, Yimo Cai, Kaiyan Zhang, Xiaohang Zhan, Yueqi Duan
cs.AI
要旨
トレーニングデータの規模、モデルサイズ、計算コストの増大に伴い、ビデオ生成はデジタル創作において目覚ましい成果を上げ、ユーザーがさまざまな領域で創造性を発揮することを可能にしています。最近、大規模言語モデル(LLMs)の研究者たちは、スケーリングを推論時にも拡張し、より多くの推論時の計算リソースを使用することでLLMの性能を大幅に向上させることができることを示しました。高額なトレーニングコストをかけてビデオ基盤モデルをスケールアップする代わりに、私たちはビデオ生成におけるテストタイムスケーリング(TTS)の可能性を探り、次の問いに答えようとしています:ビデオ生成モデルが非自明な量の推論時の計算リソースを使用できる場合、挑戦的なテキストプロンプトを与えられたとき、生成品質をどれだけ向上させることができるか。本研究では、ビデオ生成のテストタイムスケーリングを、ガウスノイズ空間からターゲットビデオ分布へのより良い軌道をサンプリングする探索問題として再解釈します。具体的には、フィードバックを提供するテストタイム検証器と探索プロセスを導くヒューリスティックアルゴリズムを用いて探索空間を構築します。テキストプロンプトが与えられた場合、まず推論時にノイズ候補を増やす直感的な線形探索戦略を検討します。すべてのフレームを同時に完全ステップでノイズ除去することは、重いテストタイム計算コストを必要とするため、ビデオ生成のためのより効率的なTTS手法であるTree-of-Frames(ToF)を設計しました。これは、自己回帰的にビデオブランチを適応的に拡張し、剪定するものです。テキスト条件付きビデオ生成ベンチマークでの広範な実験により、テストタイムの計算リソースを増やすことが、ビデオの品質を一貫して大幅に向上させることを実証しました。プロジェクトページ: https://liuff19.github.io/Video-T1
English
With the scale capability of increasing training data, model size, and
computational cost, video generation has achieved impressive results in digital
creation, enabling users to express creativity across various domains.
Recently, researchers in Large Language Models (LLMs) have expanded the scaling
to test-time, which can significantly improve LLM performance by using more
inference-time computation. Instead of scaling up video foundation models
through expensive training costs, we explore the power of Test-Time Scaling
(TTS) in video generation, aiming to answer the question: if a video generation
model is allowed to use non-trivial amount of inference-time compute, how much
can it improve generation quality given a challenging text prompt. In this
work, we reinterpret the test-time scaling of video generation as a searching
problem to sample better trajectories from Gaussian noise space to the target
video distribution. Specifically, we build the search space with test-time
verifiers to provide feedback and heuristic algorithms to guide searching
process. Given a text prompt, we first explore an intuitive linear search
strategy by increasing noise candidates at inference time. As full-step
denoising all frames simultaneously requires heavy test-time computation costs,
we further design a more efficient TTS method for video generation called
Tree-of-Frames (ToF) that adaptively expands and prunes video branches in an
autoregressive manner. Extensive experiments on text-conditioned video
generation benchmarks demonstrate that increasing test-time compute
consistently leads to significant improvements in the quality of videos.
Project page: https://liuff19.github.io/Video-T1Summary
AI-Generated Summary