VISTA : Un agent de génération vidéo auto-améliorant en temps de test
VISTA: A Test-Time Self-Improving Video Generation Agent
October 17, 2025
papers.authors: Do Xuan Long, Xingchen Wan, Hootan Nakhost, Chen-Yu Lee, Tomas Pfister, Sercan Ö. Arık
cs.AI
papers.abstract
Malgré les avancées rapides dans la synthèse de texte à vidéo, la qualité des vidéos générées reste fortement dépendante de la précision des instructions utilisateur. Les méthodes d'optimisation au moment du test, bien que réussies dans d'autres domaines, peinent à gérer la nature multifacette de la vidéo. Dans ce travail, nous présentons VISTA (Video Iterative Self-improvemenT Agent), un système multi-agent novateur qui améliore de manière autonome la génération de vidéos en affinant les instructions dans une boucle itérative. VISTA décompose d'abord une idée utilisateur en un plan temporel structuré. Après la génération, la meilleure vidéo est identifiée via un tournoi par paires robuste. Cette vidéo gagnante est ensuite critiquée par un trio d'agents spécialisés se concentrant sur la fidélité visuelle, audio et contextuelle. Enfin, un agent de raisonnement synthétise ces retours pour réécrire et améliorer introspectivement l'instruction pour le cycle de génération suivant. Les expériences sur des scénarios de génération de vidéos à scène unique et multi-scènes montrent que, tandis que les méthodes précédentes produisent des gains inconstants, VISTA améliore systématiquement la qualité des vidéos et leur alignement avec l'intention utilisateur, atteignant jusqu'à 60 % de taux de victoire par paires contre les références de pointe. Les évaluateurs humains concordent, préférant les sorties de VISTA dans 66,4 % des comparaisons.
English
Despite rapid advances in text-to-video synthesis, generated video quality
remains critically dependent on precise user prompts. Existing test-time
optimization methods, successful in other domains, struggle with the
multi-faceted nature of video. In this work, we introduce VISTA (Video
Iterative Self-improvemenT Agent), a novel multi-agent system that autonomously
improves video generation through refining prompts in an iterative loop. VISTA
first decomposes a user idea into a structured temporal plan. After generation,
the best video is identified through a robust pairwise tournament. This winning
video is then critiqued by a trio of specialized agents focusing on visual,
audio, and contextual fidelity. Finally, a reasoning agent synthesizes this
feedback to introspectively rewrite and enhance the prompt for the next
generation cycle. Experiments on single- and multi-scene video generation
scenarios show that while prior methods yield inconsistent gains, VISTA
consistently improves video quality and alignment with user intent, achieving
up to 60% pairwise win rate against state-of-the-art baselines. Human
evaluators concur, preferring VISTA outputs in 66.4% of comparisons.