VQQA: un approccio agentico per la valutazione e il miglioramento della qualità video

Abstract

Nonostante i rapidi progressi nei modelli di generazione video, l'allineamento dei loro output con l'intento complesso dell'utente rimane una sfida. I metodi di ottimizzazione a runtime esistenti sono tipicamente o computazionalmente costosi o richiedono l'accesso white-box agli elementi interni del modello. Per affrontare questo problema, presentiamo VQQA (Video Quality Question Answering), un framework unificato e multi-agente generalizzabile su diverse modalità di input e task di generazione video. Generando dinamicamente domande visive e utilizzando le relative critiche del Modello Visione-Linguaggio (VLM) come gradienti semantici, VQQA sostituisce le metriche di valutazione passive tradizionali con un feedback azionabile e interpretabile dall'uomo. Ciò consente un processo di ottimizzazione dei prompt altamente efficiente e a ciclo chiuso tramite un'interfaccia in linguaggio naturale di tipo black-box. Esperimenti estensivi dimostrano che VQQA isola e risolve efficacemente gli artefatti visivi, migliorando sostanzialmente la qualità della generazione in pochi passi di raffinamento. Applicabile sia ai task text-to-video (T2V) che image-to-video (I2V), il nostro metodo raggiunge miglioramenti assoluti di +11,57% su T2V-CompBench e +8,43% su VBench2 rispetto alla generazione vanilla, superando significativamente le tecniche di ottimizzazione dei prompt e di ricerca stocastica allo stato dell'arte.

English

Despite rapid advancements in video generation models, aligning their outputs with complex user intent remains challenging. Existing test-time optimization methods are typically either computationally expensive or require white-box access to model internals. To address this, we present VQQA (Video Quality Question Answering), a unified, multi-agent framework generalizable across diverse input modalities and video generation tasks. By dynamically generating visual questions and using the resulting Vision-Language Model (VLM) critiques as semantic gradients, VQQA replaces traditional, passive evaluation metrics with human-interpretable, actionable feedback. This enables a highly efficient, closed-loop prompt optimization process via a black-box natural language interface. Extensive experiments demonstrate that VQQA effectively isolates and resolves visual artifacts, substantially improving generation quality in just a few refinement steps. Applicable to both text-to-video (T2V) and image-to-video (I2V) tasks, our method achieves absolute improvements of +11.57% on T2V-CompBench and +8.43% on VBench2 over vanilla generation, significantly outperforming state-of-the-art stochastic search and prompt optimization techniques.

VQQA: un approccio agentico per la valutazione e il miglioramento della qualità video

VQQA: An Agentic Approach for Video Evaluation and Quality Improvement

Abstract

Support