VISTA: Een zelfverbeterend videogeneratieagent tijdens testtijd
VISTA: A Test-Time Self-Improving Video Generation Agent
October 17, 2025
Auteurs: Do Xuan Long, Xingchen Wan, Hootan Nakhost, Chen-Yu Lee, Tomas Pfister, Sercan Ö. Arık
cs.AI
Samenvatting
Ondanks snelle vooruitgang in tekst-naar-video-synthese, blijft de kwaliteit van gegenereerde video's sterk afhankelijk van precieze gebruikersprompts. Bestaande optimalisatiemethoden tijdens het testen, die succesvol zijn in andere domeinen, worstelen met de veelzijdige aard van video. In dit werk introduceren we VISTA (Video Iterative Self-improvemenT Agent), een nieuw multi-agent systeem dat autonoom videogeneratie verbetert door prompts te verfijnen in een iteratieve lus. VISTA deconstrueert eerst een gebruikersidee in een gestructureerd tijdelijk plan. Na generatie wordt de beste video geïdentificeerd via een robuust paarswijze toernooi. Deze winnende video wordt vervolgens beoordeeld door een trio van gespecialiseerde agents die zich richten op visuele, auditieve en contextuele trouw. Ten slotte synthetiseert een redeneeragent deze feedback om introspectief de prompt te herschrijven en te verbeteren voor de volgende generatiecyclus. Experimenten met enkelvoudige en meervoudige scène videogeneratiescenario's laten zien dat, terwijl eerdere methoden inconsistente verbeteringen opleveren, VISTA consistent de videokwaliteit en afstemming met de gebruikersintentie verbetert, met een paarswijze winstpercentage van tot 60% tegen state-of-the-art baselines. Menselijke beoordelaars zijn het hiermee eens en geven in 66,4% van de vergelijkingen de voorkeur aan VISTA-outputs.
English
Despite rapid advances in text-to-video synthesis, generated video quality
remains critically dependent on precise user prompts. Existing test-time
optimization methods, successful in other domains, struggle with the
multi-faceted nature of video. In this work, we introduce VISTA (Video
Iterative Self-improvemenT Agent), a novel multi-agent system that autonomously
improves video generation through refining prompts in an iterative loop. VISTA
first decomposes a user idea into a structured temporal plan. After generation,
the best video is identified through a robust pairwise tournament. This winning
video is then critiqued by a trio of specialized agents focusing on visual,
audio, and contextual fidelity. Finally, a reasoning agent synthesizes this
feedback to introspectively rewrite and enhance the prompt for the next
generation cycle. Experiments on single- and multi-scene video generation
scenarios show that while prior methods yield inconsistent gains, VISTA
consistently improves video quality and alignment with user intent, achieving
up to 60% pairwise win rate against state-of-the-art baselines. Human
evaluators concur, preferring VISTA outputs in 66.4% of comparisons.