VISTA: Un Agente di Generazione Video con Auto-Miglioramento in Tempo Reale
VISTA: A Test-Time Self-Improving Video Generation Agent
October 17, 2025
Autori: Do Xuan Long, Xingchen Wan, Hootan Nakhost, Chen-Yu Lee, Tomas Pfister, Sercan Ö. Arık
cs.AI
Abstract
Nonostante i rapidi progressi nella sintesi testo-video, la qualità dei video generati rimane fortemente dipendente da prompt utente precisi. I metodi di ottimizzazione al momento del test, di successo in altri domini, faticano a gestire la natura multifaccettata del video. In questo lavoro, introduciamo VISTA (Video Iterative Self-improvemenT Agent), un innovativo sistema multi-agente che migliora autonomamente la generazione di video attraverso il perfezionamento iterativo dei prompt. VISTA scompone prima un'idea dell'utente in un piano temporale strutturato. Dopo la generazione, il miglior video viene identificato attraverso un robusto torneo a coppie. Questo video vincente viene poi analizzato da una triade di agenti specializzati che si concentrano sulla fedeltà visiva, audio e contestuale. Infine, un agente di ragionamento sintetizza questo feedback per riscrivere in modo introspettivo e migliorare il prompt per il ciclo di generazione successivo. Gli esperimenti su scenari di generazione video a scena singola e multi-scena mostrano che, mentre i metodi precedenti producono miglioramenti inconsistenti, VISTA migliora costantemente la qualità del video e l'allineamento con l'intento dell'utente, raggiungendo un tasso di vittoria a coppie fino al 60% rispetto ai benchmark di stato dell'arte. Anche i valutatori umani concordano, preferendo gli output di VISTA nel 66,4% dei confronti.
English
Despite rapid advances in text-to-video synthesis, generated video quality
remains critically dependent on precise user prompts. Existing test-time
optimization methods, successful in other domains, struggle with the
multi-faceted nature of video. In this work, we introduce VISTA (Video
Iterative Self-improvemenT Agent), a novel multi-agent system that autonomously
improves video generation through refining prompts in an iterative loop. VISTA
first decomposes a user idea into a structured temporal plan. After generation,
the best video is identified through a robust pairwise tournament. This winning
video is then critiqued by a trio of specialized agents focusing on visual,
audio, and contextual fidelity. Finally, a reasoning agent synthesizes this
feedback to introspectively rewrite and enhance the prompt for the next
generation cycle. Experiments on single- and multi-scene video generation
scenarios show that while prior methods yield inconsistent gains, VISTA
consistently improves video quality and alignment with user intent, achieving
up to 60% pairwise win rate against state-of-the-art baselines. Human
evaluators concur, preferring VISTA outputs in 66.4% of comparisons.