ChatPaper.aiChatPaper

VISTA: Een zelfverbeterend videogeneratieagent tijdens testtijd

VISTA: A Test-Time Self-Improving Video Generation Agent

October 17, 2025
Auteurs: Do Xuan Long, Xingchen Wan, Hootan Nakhost, Chen-Yu Lee, Tomas Pfister, Sercan Ö. Arık
cs.AI

Samenvatting

Ondanks snelle vooruitgang in tekst-naar-video-synthese, blijft de kwaliteit van gegenereerde video's sterk afhankelijk van precieze gebruikersprompts. Bestaande optimalisatiemethoden tijdens het testen, die succesvol zijn in andere domeinen, worstelen met de veelzijdige aard van video. In dit werk introduceren we VISTA (Video Iterative Self-improvemenT Agent), een nieuw multi-agent systeem dat autonoom videogeneratie verbetert door prompts te verfijnen in een iteratieve lus. VISTA deconstrueert eerst een gebruikersidee in een gestructureerd tijdelijk plan. Na generatie wordt de beste video geïdentificeerd via een robuust paarswijze toernooi. Deze winnende video wordt vervolgens beoordeeld door een trio van gespecialiseerde agents die zich richten op visuele, auditieve en contextuele trouw. Ten slotte synthetiseert een redeneeragent deze feedback om introspectief de prompt te herschrijven en te verbeteren voor de volgende generatiecyclus. Experimenten met enkelvoudige en meervoudige scène videogeneratiescenario's laten zien dat, terwijl eerdere methoden inconsistente verbeteringen opleveren, VISTA consistent de videokwaliteit en afstemming met de gebruikersintentie verbetert, met een paarswijze winstpercentage van tot 60% tegen state-of-the-art baselines. Menselijke beoordelaars zijn het hiermee eens en geven in 66,4% van de vergelijkingen de voorkeur aan VISTA-outputs.
English
Despite rapid advances in text-to-video synthesis, generated video quality remains critically dependent on precise user prompts. Existing test-time optimization methods, successful in other domains, struggle with the multi-faceted nature of video. In this work, we introduce VISTA (Video Iterative Self-improvemenT Agent), a novel multi-agent system that autonomously improves video generation through refining prompts in an iterative loop. VISTA first decomposes a user idea into a structured temporal plan. After generation, the best video is identified through a robust pairwise tournament. This winning video is then critiqued by a trio of specialized agents focusing on visual, audio, and contextual fidelity. Finally, a reasoning agent synthesizes this feedback to introspectively rewrite and enhance the prompt for the next generation cycle. Experiments on single- and multi-scene video generation scenarios show that while prior methods yield inconsistent gains, VISTA consistently improves video quality and alignment with user intent, achieving up to 60% pairwise win rate against state-of-the-art baselines. Human evaluators concur, preferring VISTA outputs in 66.4% of comparisons.
PDF162October 20, 2025