VQQA: Un Enfoque Agéntico para la Evaluación y Mejora de la Calidad de Video

Resumen

A pesar de los rápidos avances en los modelos de generación de vídeo, alinear sus resultados con la intención compleja del usuario sigue siendo un desafío. Los métodos de optimización en tiempo de prueba existentes suelen ser computacionalmente costosos o requieren acceso de caja blanca a los componentes internos del modelo. Para abordar este problema, presentamos VQQA (Video Quality Question Answering), un marco unificado y multiagente generalizable en diversas modalidades de entrada y tareas de generación de vídeo. Al generar dinámicamente preguntas visuales y utilizar las críticas resultantes de un Modelo de Visión y Lenguaje (VLM) como gradientes semánticos, VQQA reemplaza las métricas de evaluación pasivas tradicionales con comentarios procesables e interpretables para humanos. Esto permite un proceso de optimización de prompts de ciclo cerrado altamente eficiente mediante una interfaz de lenguaje natural de caja negra. Experimentos exhaustivos demuestran que VQQA aísla y resuelve eficazmente los artefactos visuales, mejorando sustancialmente la calidad de la generación en solo unos pocos pasos de refinamiento. Aplicable tanto a tareas de texto a vídeo (T2V) como de imagen a vídeo (I2V), nuestro método logra mejoras absolutas de +11,57 % en T2V-CompBench y +8,43 % en VBench2 sobre la generación básica, superando significativamente a las técnicas de optimización de prompts y búsqueda estocástica de vanguardia.

English

Despite rapid advancements in video generation models, aligning their outputs with complex user intent remains challenging. Existing test-time optimization methods are typically either computationally expensive or require white-box access to model internals. To address this, we present VQQA (Video Quality Question Answering), a unified, multi-agent framework generalizable across diverse input modalities and video generation tasks. By dynamically generating visual questions and using the resulting Vision-Language Model (VLM) critiques as semantic gradients, VQQA replaces traditional, passive evaluation metrics with human-interpretable, actionable feedback. This enables a highly efficient, closed-loop prompt optimization process via a black-box natural language interface. Extensive experiments demonstrate that VQQA effectively isolates and resolves visual artifacts, substantially improving generation quality in just a few refinement steps. Applicable to both text-to-video (T2V) and image-to-video (I2V) tasks, our method achieves absolute improvements of +11.57% on T2V-CompBench and +8.43% on VBench2 over vanilla generation, significantly outperforming state-of-the-art stochastic search and prompt optimization techniques.

VQQA: Un Enfoque Agéntico para la Evaluación y Mejora de la Calidad de Video

VQQA: An Agentic Approach for Video Evaluation and Quality Improvement

Resumen

Support