VQQA: Ein agentenbasierter Ansatz zur Videobewertung und Qualitätsverbesserung
VQQA: An Agentic Approach for Video Evaluation and Quality Improvement
March 12, 2026
Autoren: Yiwen Song, Tomas Pfister, Yale Song
cs.AI
Zusammenfassung
Trotz rasanter Fortschritte bei Video-Generierungsmodellen bleibt die Abstimmung ihrer Ausgaben auf komplexe Benutzerabsichten eine Herausforderung. Bestehende Optimierungsmethoden zur Laufzeit sind typischerweise entweder rechenintensiv oder erfordern White-Box-Zugriff auf Modellinterna. Um dies zu adressieren, stellen wir VQQA (Video Quality Question Answering) vor, ein einheitliches Multi-Agenten-Framework, das sich über verschiedene Eingabemodalitäten und Video-Generierungsaufgaben verallgemeinern lässt. Durch die dynamische Generierung visueller Fragen und die Nutzung der daraus resultierenden Vision-Language-Model (VLM)-Kritiken als semantische Gradienten ersetzt VQQA traditionelle, passive Bewertungsmetriken durch menschlich interpretierbares, umsetzbares Feedback. Dies ermöglicht einen hocheffizienten, geschlossenen Prompt-Optimierungsprozess über eine Black-Box-Natürlichsprachliche-Schnittstelle. Umfangreiche Experimente zeigen, dass VQQA effektiv visuelle Artefakte isoliert und behebt, wodurch die Generierungsqualität in nur wenigen Optimierungsschritten erheblich verbessert wird. Anwendbar auf sowohl Text-zu-Video (T2V) als auch Bild-zu-Video (I2V) Aufgaben erzielt unsere Methode absolute Verbesserungen von +11,57 % auf T2V-CompBench und +8,43 % auf VBench2 gegenüber der Standardgenerierung und übertrifft damit state-of-the-art stochastische Such- und Prompt-Optimierungstechniken signifikant.
English
Despite rapid advancements in video generation models, aligning their outputs with complex user intent remains challenging. Existing test-time optimization methods are typically either computationally expensive or require white-box access to model internals. To address this, we present VQQA (Video Quality Question Answering), a unified, multi-agent framework generalizable across diverse input modalities and video generation tasks. By dynamically generating visual questions and using the resulting Vision-Language Model (VLM) critiques as semantic gradients, VQQA replaces traditional, passive evaluation metrics with human-interpretable, actionable feedback. This enables a highly efficient, closed-loop prompt optimization process via a black-box natural language interface. Extensive experiments demonstrate that VQQA effectively isolates and resolves visual artifacts, substantially improving generation quality in just a few refinement steps. Applicable to both text-to-video (T2V) and image-to-video (I2V) tasks, our method achieves absolute improvements of +11.57% on T2V-CompBench and +8.43% on VBench2 over vanilla generation, significantly outperforming state-of-the-art stochastic search and prompt optimization techniques.