ChatPaper.aiChatPaper

VQQA: Uma Abordagem Agente para Avaliação de Vídeo e Melhoria de Qualidade

VQQA: An Agentic Approach for Video Evaluation and Quality Improvement

March 12, 2026
Autores: Yiwen Song, Tomas Pfister, Yale Song
cs.AI

Resumo

Apesar dos rápidos avanços nos modelos de geração de vídeo, o alinhamento das suas saídas com a intenção complexa do utilizador continua a ser um desafio. Os métodos de otimização em tempo de teste existentes são tipicamente computacionalmente dispendiosos ou requerem acesso de "caixa branca" aos componentes internos do modelo. Para resolver isto, apresentamos o VQQA (Video Quality Question Answering), um quadro unificado e multiagente, generalizável em diversas modalidades de entrada e tarefas de geração de vídeo. Ao gerar dinamicamente questões visuais e utilizar as respetivas críticas de Modelos de Visão e Linguagem (VLM) como gradientes semânticos, o VQQA substitui as métricas de avaliação passivas tradicionais por *feedback* acionável e interpretável por humanos. Isto permite um processo de otimização de *prompts* de ciclo fechado altamente eficiente através de uma interface de linguagem natural de "caixa negra". Experiências extensivas demonstram que o VQQA isola e resolve eficazmente artefactos visuais, melhorando substancialmente a qualidade da geração em apenas alguns passos de refinamento. Aplicável tanto a tarefas de texto-para-vídeo (T2V) como de imagem-para-vídeo (I2V), o nosso método alcança melhorias absolutas de +11,57% no T2V-CompBench e +8,43% no VBench2 em relação à geração padrão, superando significativamente as técnicas de otimização de *prompts* e de busca estocástica de última geração.
English
Despite rapid advancements in video generation models, aligning their outputs with complex user intent remains challenging. Existing test-time optimization methods are typically either computationally expensive or require white-box access to model internals. To address this, we present VQQA (Video Quality Question Answering), a unified, multi-agent framework generalizable across diverse input modalities and video generation tasks. By dynamically generating visual questions and using the resulting Vision-Language Model (VLM) critiques as semantic gradients, VQQA replaces traditional, passive evaluation metrics with human-interpretable, actionable feedback. This enables a highly efficient, closed-loop prompt optimization process via a black-box natural language interface. Extensive experiments demonstrate that VQQA effectively isolates and resolves visual artifacts, substantially improving generation quality in just a few refinement steps. Applicable to both text-to-video (T2V) and image-to-video (I2V) tasks, our method achieves absolute improvements of +11.57% on T2V-CompBench and +8.43% on VBench2 over vanilla generation, significantly outperforming state-of-the-art stochastic search and prompt optimization techniques.
PDF81March 30, 2026