VISTA: Ein sich selbst verbessernder Video-Generierungsagent zur Testzeit
VISTA: A Test-Time Self-Improving Video Generation Agent
October 17, 2025
papers.authors: Do Xuan Long, Xingchen Wan, Hootan Nakhost, Chen-Yu Lee, Tomas Pfister, Sercan Ö. Arık
cs.AI
papers.abstract
Trotz rasanter Fortschritte in der Text-zu-Video-Synthese bleibt die Qualität der generierten Videos entscheidend von präzisen Benutzeranweisungen abhängig. Bestehende Optimierungsmethoden zur Laufzeit, die in anderen Bereichen erfolgreich sind, scheitern an der vielschichtigen Natur von Videos. In dieser Arbeit stellen wir VISTA (Video Iterative Self-improvemenT Agent) vor, ein neuartiges Multi-Agenten-System, das die Videogenerierung autonom durch die iterative Verfeinerung von Anweisungen in einer Schleife verbessert. VISTA zerlegt zunächst eine Benutzeridee in einen strukturierten zeitlichen Plan. Nach der Generierung wird das beste Video durch ein robustes paarweises Turnier identifiziert. Dieses siegreiche Video wird dann von einem Trio spezialisierter Agenten bewertet, die sich auf visuelle, auditive und kontextuelle Treue konzentrieren. Schließlich synthetisiert ein logischer Agent dieses Feedback, um die Anweisung für den nächsten Generierungszyklus introspektiv umzuschreiben und zu verbessern. Experimente in Szenarien zur Generierung von Einzel- und Mehrszenenvideos zeigen, dass VISTA im Gegensatz zu früheren Methoden, die inkonsistente Verbesserungen erzielen, die Videoqualität und die Übereinstimmung mit der Benutzerabsicht konsequent steigert und dabei eine paarweise Gewinnrate von bis zu 60 % gegenüber modernsten Vergleichsverfahren erreicht. Menschliche Bewerter stimmen dem zu und bevorzugen die Ausgaben von VISTA in 66,4 % der Vergleiche.
English
Despite rapid advances in text-to-video synthesis, generated video quality
remains critically dependent on precise user prompts. Existing test-time
optimization methods, successful in other domains, struggle with the
multi-faceted nature of video. In this work, we introduce VISTA (Video
Iterative Self-improvemenT Agent), a novel multi-agent system that autonomously
improves video generation through refining prompts in an iterative loop. VISTA
first decomposes a user idea into a structured temporal plan. After generation,
the best video is identified through a robust pairwise tournament. This winning
video is then critiqued by a trio of specialized agents focusing on visual,
audio, and contextual fidelity. Finally, a reasoning agent synthesizes this
feedback to introspectively rewrite and enhance the prompt for the next
generation cycle. Experiments on single- and multi-scene video generation
scenarios show that while prior methods yield inconsistent gains, VISTA
consistently improves video quality and alignment with user intent, achieving
up to 60% pairwise win rate against state-of-the-art baselines. Human
evaluators concur, preferring VISTA outputs in 66.4% of comparisons.