Video-T1: Масштабирование во время тестирования для генерации видео
Video-T1: Test-Time Scaling for Video Generation
March 24, 2025
Авторы: Fangfu Liu, Hanyang Wang, Yimo Cai, Kaiyan Zhang, Xiaohang Zhan, Yueqi Duan
cs.AI
Аннотация
С увеличением масштаба обучающих данных, размера модели и вычислительных затрат генерация видео достигла впечатляющих результатов в цифровом творчестве, позволяя пользователям выражать креативность в различных областях. Недавно исследователи в области больших языковых моделей (LLM) расширили масштабирование до этапа тестирования, что может значительно улучшить производительность LLM за счет использования большего объема вычислений на этапе вывода. Вместо масштабирования базовых моделей видео через дорогостоящие затраты на обучение мы исследуем потенциал масштабирования на этапе тестирования (Test-Time Scaling, TTS) в генерации видео, стремясь ответить на вопрос: если модели генерации видео разрешено использовать значительный объем вычислений на этапе вывода, насколько может улучшиться качество генерации при сложном текстовом запросе. В данной работе мы переосмысливаем масштабирование на этапе тестирования в генерации видео как задачу поиска, чтобы выбирать более качественные траектории из пространства гауссовского шума к целевому распределению видео. В частности, мы строим пространство поиска с использованием верификаторов на этапе тестирования для предоставления обратной связи и эвристических алгоритмов для управления процессом поиска. Для заданного текстового запроса мы сначала исследуем интуитивную стратегию линейного поиска, увеличивая количество кандидатов шума на этапе вывода. Поскольку полное удаление шума для всех кадров одновременно требует значительных вычислительных затрат на этапе тестирования, мы разрабатываем более эффективный метод TTS для генерации видео под названием Tree-of-Frames (ToF), который адаптивно расширяет и обрезает ветви видео в авторегрессивном режиме. Многочисленные эксперименты на бенчмарках генерации видео по текстовым условиям демонстрируют, что увеличение объема вычислений на этапе тестирования последовательно приводит к значительному улучшению качества видео. Страница проекта: https://liuff19.github.io/Video-T1
English
With the scale capability of increasing training data, model size, and
computational cost, video generation has achieved impressive results in digital
creation, enabling users to express creativity across various domains.
Recently, researchers in Large Language Models (LLMs) have expanded the scaling
to test-time, which can significantly improve LLM performance by using more
inference-time computation. Instead of scaling up video foundation models
through expensive training costs, we explore the power of Test-Time Scaling
(TTS) in video generation, aiming to answer the question: if a video generation
model is allowed to use non-trivial amount of inference-time compute, how much
can it improve generation quality given a challenging text prompt. In this
work, we reinterpret the test-time scaling of video generation as a searching
problem to sample better trajectories from Gaussian noise space to the target
video distribution. Specifically, we build the search space with test-time
verifiers to provide feedback and heuristic algorithms to guide searching
process. Given a text prompt, we first explore an intuitive linear search
strategy by increasing noise candidates at inference time. As full-step
denoising all frames simultaneously requires heavy test-time computation costs,
we further design a more efficient TTS method for video generation called
Tree-of-Frames (ToF) that adaptively expands and prunes video branches in an
autoregressive manner. Extensive experiments on text-conditioned video
generation benchmarks demonstrate that increasing test-time compute
consistently leads to significant improvements in the quality of videos.
Project page: https://liuff19.github.io/Video-T1