VISTA: Un Agente de Generación de Vídeo con Automejora en Tiempo de Prueba
VISTA: A Test-Time Self-Improving Video Generation Agent
October 17, 2025
Autores: Do Xuan Long, Xingchen Wan, Hootan Nakhost, Chen-Yu Lee, Tomas Pfister, Sercan Ö. Arık
cs.AI
Resumen
A pesar de los rápidos avances en la síntesis de texto a video, la calidad del video generado sigue dependiendo críticamente de indicaciones precisas por parte del usuario. Los métodos de optimización en tiempo de prueba, exitosos en otros dominios, enfrentan dificultades con la naturaleza multifacética del video. En este trabajo, presentamos VISTA (Video Iterative Self-improvemenT Agent), un novedoso sistema multiagente que mejora autónomamente la generación de videos mediante el refinamiento de indicaciones en un ciclo iterativo. VISTA primero descompone una idea del usuario en un plan temporal estructurado. Después de la generación, el mejor video se identifica mediante un robusto torneo por pares. Este video ganador es luego evaluado por un trío de agentes especializados que se enfocan en la fidelidad visual, auditiva y contextual. Finalmente, un agente de razonamiento sintetiza esta retroalimentación para reescribir y mejorar introspectivamente la indicación para el siguiente ciclo de generación. Los experimentos en escenarios de generación de video de una sola escena y múltiples escenas muestran que, mientras los métodos anteriores producen ganancias inconsistentes, VISTA mejora consistentemente la calidad del video y su alineación con la intención del usuario, logrando una tasa de victoria por pares de hasta el 60% frente a líneas base de última generación. Los evaluadores humanos coinciden, prefiriendo los resultados de VISTA en el 66.4% de las comparaciones.
English
Despite rapid advances in text-to-video synthesis, generated video quality
remains critically dependent on precise user prompts. Existing test-time
optimization methods, successful in other domains, struggle with the
multi-faceted nature of video. In this work, we introduce VISTA (Video
Iterative Self-improvemenT Agent), a novel multi-agent system that autonomously
improves video generation through refining prompts in an iterative loop. VISTA
first decomposes a user idea into a structured temporal plan. After generation,
the best video is identified through a robust pairwise tournament. This winning
video is then critiqued by a trio of specialized agents focusing on visual,
audio, and contextual fidelity. Finally, a reasoning agent synthesizes this
feedback to introspectively rewrite and enhance the prompt for the next
generation cycle. Experiments on single- and multi-scene video generation
scenarios show that while prior methods yield inconsistent gains, VISTA
consistently improves video quality and alignment with user intent, achieving
up to 60% pairwise win rate against state-of-the-art baselines. Human
evaluators concur, preferring VISTA outputs in 66.4% of comparisons.