VISTA: Un Agente de Generación de Vídeo con Automejora en Tiempo de Prueba

Resumen

A pesar de los rápidos avances en la síntesis de texto a video, la calidad del video generado sigue dependiendo críticamente de indicaciones precisas por parte del usuario. Los métodos de optimización en tiempo de prueba, exitosos en otros dominios, enfrentan dificultades con la naturaleza multifacética del video. En este trabajo, presentamos VISTA (Video Iterative Self-improvemenT Agent), un novedoso sistema multiagente que mejora autónomamente la generación de videos mediante el refinamiento de indicaciones en un ciclo iterativo. VISTA primero descompone una idea del usuario en un plan temporal estructurado. Después de la generación, el mejor video se identifica mediante un robusto torneo por pares. Este video ganador es luego evaluado por un trío de agentes especializados que se enfocan en la fidelidad visual, auditiva y contextual. Finalmente, un agente de razonamiento sintetiza esta retroalimentación para reescribir y mejorar introspectivamente la indicación para el siguiente ciclo de generación. Los experimentos en escenarios de generación de video de una sola escena y múltiples escenas muestran que, mientras los métodos anteriores producen ganancias inconsistentes, VISTA mejora consistentemente la calidad del video y su alineación con la intención del usuario, logrando una tasa de victoria por pares de hasta el 60% frente a líneas base de última generación. Los evaluadores humanos coinciden, prefiriendo los resultados de VISTA en el 66.4% de las comparaciones.

English

Despite rapid advances in text-to-video synthesis, generated video quality remains critically dependent on precise user prompts. Existing test-time optimization methods, successful in other domains, struggle with the multi-faceted nature of video. In this work, we introduce VISTA (Video Iterative Self-improvemenT Agent), a novel multi-agent system that autonomously improves video generation through refining prompts in an iterative loop. VISTA first decomposes a user idea into a structured temporal plan. After generation, the best video is identified through a robust pairwise tournament. This winning video is then critiqued by a trio of specialized agents focusing on visual, audio, and contextual fidelity. Finally, a reasoning agent synthesizes this feedback to introspectively rewrite and enhance the prompt for the next generation cycle. Experiments on single- and multi-scene video generation scenarios show that while prior methods yield inconsistent gains, VISTA consistently improves video quality and alignment with user intent, achieving up to 60% pairwise win rate against state-of-the-art baselines. Human evaluators concur, preferring VISTA outputs in 66.4% of comparisons.