VQQA: Een agent-gebaseerde aanpak voor videobeoordeling en kwaliteitsverbetering
VQQA: An Agentic Approach for Video Evaluation and Quality Improvement
March 12, 2026
Auteurs: Yiwen Song, Tomas Pfister, Yale Song
cs.AI
Samenvatting
Ondanks de snelle vooruitgang in videogeneratiemodellen blijft het afstemmen van hun output op complexe gebruikersintenties een uitdaging. Bestaande optimalisatiemethoden tijdens het testen zijn doorgaans ofwel rekenintensief, ofwel vereisen ze white-box-toegang tot modelinterne componenten. Om dit aan te pakken, presenteren we VQQA (Video Quality Question Answering), een uniform, multi-agent raamwerk dat generaliseerbaar is over diverse invoermodaliteiten en videogeneratietaken. Door dynamisch visuele vragen te genereren en de resulterende kritieken van een Vision-Language Model (VLM) te gebruiken als semantische gradiënten, vervangt VQQA traditionele, passieve evaluatiemetrics door mens-interpreteerbare, actiegerichte feedback. Dit maakt een uiterst efficiënt, gesloten-lus promptoptimalisatieproces mogelijk via een black-box natuurlijke-taalinterface. Uitgebreide experimenten tonen aan dat VQQA effectief visuele artefacten isoleert en oplost, waardoor de generatiekwaliteit aanzienlijk verbetert in slechts enkele verfijningsstappen. Toepasbaar op zowel tekst-naar-video (T2V) als beeld-naar-video (I2V) taken, behaalt onze methode absolute verbeteringen van +11,57% op T2V-CompBench en +8,43% op VBench2 ten opzichte van standaardgeneratie, en presteert daarbij aanzienlijk beter dan state-of-the-art stochastische zoek- en promptoptimalisatietechnieken.
English
Despite rapid advancements in video generation models, aligning their outputs with complex user intent remains challenging. Existing test-time optimization methods are typically either computationally expensive or require white-box access to model internals. To address this, we present VQQA (Video Quality Question Answering), a unified, multi-agent framework generalizable across diverse input modalities and video generation tasks. By dynamically generating visual questions and using the resulting Vision-Language Model (VLM) critiques as semantic gradients, VQQA replaces traditional, passive evaluation metrics with human-interpretable, actionable feedback. This enables a highly efficient, closed-loop prompt optimization process via a black-box natural language interface. Extensive experiments demonstrate that VQQA effectively isolates and resolves visual artifacts, substantially improving generation quality in just a few refinement steps. Applicable to both text-to-video (T2V) and image-to-video (I2V) tasks, our method achieves absolute improvements of +11.57% on T2V-CompBench and +8.43% on VBench2 over vanilla generation, significantly outperforming state-of-the-art stochastic search and prompt optimization techniques.