ChatPaper.aiChatPaper

VISTA: Агент генерации видео с самообучением на этапе тестирования

VISTA: A Test-Time Self-Improving Video Generation Agent

October 17, 2025
Авторы: Do Xuan Long, Xingchen Wan, Hootan Nakhost, Chen-Yu Lee, Tomas Pfister, Sercan Ö. Arık
cs.AI

Аннотация

Несмотря на быстрый прогресс в синтезе видео из текста, качество генерируемого видео по-прежнему критически зависит от точности пользовательских запросов. Существующие методы оптимизации на этапе тестирования, успешные в других областях, сталкиваются с трудностями из-за многогранной природы видео. В данной работе мы представляем VISTA (Video Iterative Self-improvemenT Agent) — новую мультиагентную систему, которая автономно улучшает генерацию видео за счет уточнения запросов в итеративном цикле. VISTA сначала разбивает идею пользователя на структурированный временной план. После генерации лучший видеофрагмент определяется с помощью надежного попарного турнира. Затем этот выигравший видеофрагмент анализируется тремя специализированными агентами, которые фокусируются на визуальной, аудио и контекстуальной точности. Наконец, агент рассуждений синтезирует эту обратную связь для интроспективного переписывания и улучшения запроса для следующего цикла генерации. Эксперименты на сценариях генерации видео с одним и несколькими сценами показывают, что, хотя предыдущие методы дают нестабильные улучшения, VISTA последовательно повышает качество видео и его соответствие намерениям пользователя, достигая до 60% побед в попарных сравнениях с современными базовыми методами. Человеческие оценщики соглашаются, предпочитая результаты VISTA в 66,4% случаев.
English
Despite rapid advances in text-to-video synthesis, generated video quality remains critically dependent on precise user prompts. Existing test-time optimization methods, successful in other domains, struggle with the multi-faceted nature of video. In this work, we introduce VISTA (Video Iterative Self-improvemenT Agent), a novel multi-agent system that autonomously improves video generation through refining prompts in an iterative loop. VISTA first decomposes a user idea into a structured temporal plan. After generation, the best video is identified through a robust pairwise tournament. This winning video is then critiqued by a trio of specialized agents focusing on visual, audio, and contextual fidelity. Finally, a reasoning agent synthesizes this feedback to introspectively rewrite and enhance the prompt for the next generation cycle. Experiments on single- and multi-scene video generation scenarios show that while prior methods yield inconsistent gains, VISTA consistently improves video quality and alignment with user intent, achieving up to 60% pairwise win rate against state-of-the-art baselines. Human evaluators concur, preferring VISTA outputs in 66.4% of comparisons.
PDF162October 20, 2025