VISTA: Um Agente de Geração de Vídeo com Autoaprimoramento em Tempo de Teste
VISTA: A Test-Time Self-Improving Video Generation Agent
October 17, 2025
Autores: Do Xuan Long, Xingchen Wan, Hootan Nakhost, Chen-Yu Lee, Tomas Pfister, Sercan Ö. Arık
cs.AI
Resumo
Apesar dos rápidos avanços na síntese de texto para vídeo, a qualidade dos vídeos gerados continua dependendo criticamente de prompts precisos do usuário. Métodos de otimização em tempo de teste, bem-sucedidos em outros domínios, enfrentam dificuldades com a natureza multifacetada do vídeo. Neste trabalho, introduzimos o VISTA (Video Iterative Self-improvemenT Agent), um sistema multiagente inovador que melhora autonomamente a geração de vídeos por meio do refinamento de prompts em um loop iterativo. O VISTA primeiro decompõe uma ideia do usuário em um plano temporal estruturado. Após a geração, o melhor vídeo é identificado por meio de um robusto torneio de comparação em pares. Esse vídeo vencedor é então criticado por um trio de agentes especializados focados em fidelidade visual, auditiva e contextual. Por fim, um agente de raciocínio sintetiza esse feedback para reescrever e aprimorar introspectivamente o prompt para o próximo ciclo de geração. Experimentos em cenários de geração de vídeo de cena única e múltipla mostram que, enquanto métodos anteriores produzem ganhos inconsistentes, o VISTA melhora consistentemente a qualidade do vídeo e o alinhamento com a intenção do usuário, alcançando até 60% de taxa de vitória em comparações com métodos de ponta. Avaliadores humanos concordam, preferindo as saídas do VISTA em 66,4% das comparações.
English
Despite rapid advances in text-to-video synthesis, generated video quality
remains critically dependent on precise user prompts. Existing test-time
optimization methods, successful in other domains, struggle with the
multi-faceted nature of video. In this work, we introduce VISTA (Video
Iterative Self-improvemenT Agent), a novel multi-agent system that autonomously
improves video generation through refining prompts in an iterative loop. VISTA
first decomposes a user idea into a structured temporal plan. After generation,
the best video is identified through a robust pairwise tournament. This winning
video is then critiqued by a trio of specialized agents focusing on visual,
audio, and contextual fidelity. Finally, a reasoning agent synthesizes this
feedback to introspectively rewrite and enhance the prompt for the next
generation cycle. Experiments on single- and multi-scene video generation
scenarios show that while prior methods yield inconsistent gains, VISTA
consistently improves video quality and alignment with user intent, achieving
up to 60% pairwise win rate against state-of-the-art baselines. Human
evaluators concur, preferring VISTA outputs in 66.4% of comparisons.