VQQA : Une approche agentique pour l'évaluation vidéo et l'amélioration de la qualité
VQQA: An Agentic Approach for Video Evaluation and Quality Improvement
March 12, 2026
Auteurs: Yiwen Song, Tomas Pfister, Yale Song
cs.AI
Résumé
Malgré les progrès rapides des modèles de génération vidéo, l'alignement de leurs résultats avec l'intention complexe de l'utilisateur reste un défi. Les méthodes d'optimisation au moment du test existantes sont généralement soit très gourmandes en calcul, soit nécessitent un accès de type "boîte blanche" aux mécanismes internes du modèle. Pour résoudre ce problème, nous présentons VQQA (Video Quality Question Answering), un cadre multi-agent unifié et généralisable à diverses modalités d'entrée et tâches de génération vidéo. En générant dynamiquement des questions visuelles et en utilisant les critiques résultantes d'un modèle vision-langage (VLM) comme gradients sémantiques, VQQA remplace les métriques d'évaluation passives traditionnelles par un retour d'information actionnable et interprétable par l'homme. Cela permet un processus d'optimisation de prompt en boucle fermée hautement efficace via une interface en langage naturel de type "boîte noire". Des expériences approfondies démontrent que VQQA isole et résout efficacement les artefacts visuels, améliorant considérablement la qualité de la génération en seulement quelques étapes de raffinement. Applicable aux tâches de texte-à-vidéo (T2V) et d'image-à-vidéo (I2V), notre méthode obtient des améliorations absolues de +11,57 % sur T2V-CompBench et de +8,43 % sur VBench2 par rapport à la génération standard, surpassant significativement les techniques d'optimisation de prompt et de recherche stochastique de l'état de l'art.
English
Despite rapid advancements in video generation models, aligning their outputs with complex user intent remains challenging. Existing test-time optimization methods are typically either computationally expensive or require white-box access to model internals. To address this, we present VQQA (Video Quality Question Answering), a unified, multi-agent framework generalizable across diverse input modalities and video generation tasks. By dynamically generating visual questions and using the resulting Vision-Language Model (VLM) critiques as semantic gradients, VQQA replaces traditional, passive evaluation metrics with human-interpretable, actionable feedback. This enables a highly efficient, closed-loop prompt optimization process via a black-box natural language interface. Extensive experiments demonstrate that VQQA effectively isolates and resolves visual artifacts, substantially improving generation quality in just a few refinement steps. Applicable to both text-to-video (T2V) and image-to-video (I2V) tasks, our method achieves absolute improvements of +11.57% on T2V-CompBench and +8.43% on VBench2 over vanilla generation, significantly outperforming state-of-the-art stochastic search and prompt optimization techniques.