ChatPaper.aiChatPaper

VQQA: Агентный подход к оценке видео и повышению качества

VQQA: An Agentic Approach for Video Evaluation and Quality Improvement

March 12, 2026
Авторы: Yiwen Song, Tomas Pfister, Yale Song
cs.AI

Аннотация

Несмотря на быстрое развитие моделей генерации видео, согласование их выходных данных со сложными пользовательскими интенциями остается сложной задачей. Существующие методы оптимизации на этапе тестирования обычно либо требуют значительных вычислительных ресурсов, либо доступа к внутренней структуре модели (white-box). Для решения этой проблемы мы представляем VQQA (Video Quality Question Answering) — унифицированную мультиагентную систему, обобщаемую для различных входных модальностей и задач генерации видео. Путем динамического формирования визуальных вопросов и использования получаемых от Vision-Language Model (VLM) критик в качестве семантических градиентов, VQQA заменяет традиционные пассивные метрики оценки интерпретируемыми и практичными отзывами. Это позволяет реализовать высокоэффективный процесс оптимизации промптов по замкнутому циклу через черный ящик с интерфейсом естественного языка. Многочисленные эксперименты демонстрируют, что VQQA эффективно выявляет и устраняет визуальные артефакты, существенно повышая качество генерации всего за несколько шагов доработки. Применяемый как для задач текст-видео (T2V), так и изображение-видео (I2V), наш метод демонстрирует абсолютное улучшение на +11,57% на T2V-CompBench и +8,43% на VBench2 по сравнению с базовой генерацией, значительно превосходя современные методы стохастического поиска и оптимизации промптов.
English
Despite rapid advancements in video generation models, aligning their outputs with complex user intent remains challenging. Existing test-time optimization methods are typically either computationally expensive or require white-box access to model internals. To address this, we present VQQA (Video Quality Question Answering), a unified, multi-agent framework generalizable across diverse input modalities and video generation tasks. By dynamically generating visual questions and using the resulting Vision-Language Model (VLM) critiques as semantic gradients, VQQA replaces traditional, passive evaluation metrics with human-interpretable, actionable feedback. This enables a highly efficient, closed-loop prompt optimization process via a black-box natural language interface. Extensive experiments demonstrate that VQQA effectively isolates and resolves visual artifacts, substantially improving generation quality in just a few refinement steps. Applicable to both text-to-video (T2V) and image-to-video (I2V) tasks, our method achieves absolute improvements of +11.57% on T2V-CompBench and +8.43% on VBench2 over vanilla generation, significantly outperforming state-of-the-art stochastic search and prompt optimization techniques.
PDF81March 30, 2026