ChatPaper.aiChatPaper

VISTA: Um Agente de Geração de Vídeo com Autoaprimoramento em Tempo de Teste

VISTA: A Test-Time Self-Improving Video Generation Agent

October 17, 2025
Autores: Do Xuan Long, Xingchen Wan, Hootan Nakhost, Chen-Yu Lee, Tomas Pfister, Sercan Ö. Arık
cs.AI

Resumo

Apesar dos rápidos avanços na síntese de texto para vídeo, a qualidade dos vídeos gerados continua dependendo criticamente de prompts precisos do usuário. Métodos de otimização em tempo de teste, bem-sucedidos em outros domínios, enfrentam dificuldades com a natureza multifacetada do vídeo. Neste trabalho, introduzimos o VISTA (Video Iterative Self-improvemenT Agent), um sistema multiagente inovador que melhora autonomamente a geração de vídeos por meio do refinamento de prompts em um loop iterativo. O VISTA primeiro decompõe uma ideia do usuário em um plano temporal estruturado. Após a geração, o melhor vídeo é identificado por meio de um robusto torneio de comparação em pares. Esse vídeo vencedor é então criticado por um trio de agentes especializados focados em fidelidade visual, auditiva e contextual. Por fim, um agente de raciocínio sintetiza esse feedback para reescrever e aprimorar introspectivamente o prompt para o próximo ciclo de geração. Experimentos em cenários de geração de vídeo de cena única e múltipla mostram que, enquanto métodos anteriores produzem ganhos inconsistentes, o VISTA melhora consistentemente a qualidade do vídeo e o alinhamento com a intenção do usuário, alcançando até 60% de taxa de vitória em comparações com métodos de ponta. Avaliadores humanos concordam, preferindo as saídas do VISTA em 66,4% das comparações.
English
Despite rapid advances in text-to-video synthesis, generated video quality remains critically dependent on precise user prompts. Existing test-time optimization methods, successful in other domains, struggle with the multi-faceted nature of video. In this work, we introduce VISTA (Video Iterative Self-improvemenT Agent), a novel multi-agent system that autonomously improves video generation through refining prompts in an iterative loop. VISTA first decomposes a user idea into a structured temporal plan. After generation, the best video is identified through a robust pairwise tournament. This winning video is then critiqued by a trio of specialized agents focusing on visual, audio, and contextual fidelity. Finally, a reasoning agent synthesizes this feedback to introspectively rewrite and enhance the prompt for the next generation cycle. Experiments on single- and multi-scene video generation scenarios show that while prior methods yield inconsistent gains, VISTA consistently improves video quality and alignment with user intent, achieving up to 60% pairwise win rate against state-of-the-art baselines. Human evaluators concur, preferring VISTA outputs in 66.4% of comparisons.
PDF162October 20, 2025