VISTA: Агент генерации видео с самообучением на этапе тестирования
VISTA: A Test-Time Self-Improving Video Generation Agent
October 17, 2025
Авторы: Do Xuan Long, Xingchen Wan, Hootan Nakhost, Chen-Yu Lee, Tomas Pfister, Sercan Ö. Arık
cs.AI
Аннотация
Несмотря на быстрый прогресс в синтезе видео из текста, качество генерируемого видео по-прежнему критически зависит от точности пользовательских запросов. Существующие методы оптимизации на этапе тестирования, успешные в других областях, сталкиваются с трудностями из-за многогранной природы видео. В данной работе мы представляем VISTA (Video Iterative Self-improvemenT Agent) — новую мультиагентную систему, которая автономно улучшает генерацию видео за счет уточнения запросов в итеративном цикле. VISTA сначала разбивает идею пользователя на структурированный временной план. После генерации лучший видеофрагмент определяется с помощью надежного попарного турнира. Затем этот выигравший видеофрагмент анализируется тремя специализированными агентами, которые фокусируются на визуальной, аудио и контекстуальной точности. Наконец, агент рассуждений синтезирует эту обратную связь для интроспективного переписывания и улучшения запроса для следующего цикла генерации. Эксперименты на сценариях генерации видео с одним и несколькими сценами показывают, что, хотя предыдущие методы дают нестабильные улучшения, VISTA последовательно повышает качество видео и его соответствие намерениям пользователя, достигая до 60% побед в попарных сравнениях с современными базовыми методами. Человеческие оценщики соглашаются, предпочитая результаты VISTA в 66,4% случаев.
English
Despite rapid advances in text-to-video synthesis, generated video quality
remains critically dependent on precise user prompts. Existing test-time
optimization methods, successful in other domains, struggle with the
multi-faceted nature of video. In this work, we introduce VISTA (Video
Iterative Self-improvemenT Agent), a novel multi-agent system that autonomously
improves video generation through refining prompts in an iterative loop. VISTA
first decomposes a user idea into a structured temporal plan. After generation,
the best video is identified through a robust pairwise tournament. This winning
video is then critiqued by a trio of specialized agents focusing on visual,
audio, and contextual fidelity. Finally, a reasoning agent synthesizes this
feedback to introspectively rewrite and enhance the prompt for the next
generation cycle. Experiments on single- and multi-scene video generation
scenarios show that while prior methods yield inconsistent gains, VISTA
consistently improves video quality and alignment with user intent, achieving
up to 60% pairwise win rate against state-of-the-art baselines. Human
evaluators concur, preferring VISTA outputs in 66.4% of comparisons.