ChatPaper.aiChatPaper

VQQA: 영상 평가 및 품질 향상을 위한 에이전트 기반 접근법

VQQA: An Agentic Approach for Video Evaluation and Quality Improvement

March 12, 2026
저자: Yiwen Song, Tomas Pfister, Yale Song
cs.AI

초록

비디오 생성 모델의 급속한 발전에도 불구하고, 복잡한 사용자 의도와 생성 결과를 정렬하는 것은 여전히 과제로 남아 있습니다. 기존의 실시간 최적화 방법은 일반적으로 계산 비용이 높거나 모델 내부에 대한 화이트박스 접근이 필요합니다. 이를 해결하기 위해 우리는 다양한 입력 양식과 비디오 생성 작업에 일반화 가능한 통합 다중 에이전트 프레임워크인 VQQA(Video Quality Question Answering)를 제안합니다. VQQA는 시각적 질문을 동적으로 생성하고 이를 통해 얻어진 Vision-Language Model(VLM)의 비평을 의미론적 그래디언트로 활용하여 기존의 수동적 평가 지표를 인간이 해석 가능하고 실질적인 피드백으로 대체합니다. 이는 블랙박스 자연어 인터페이스를 통한 매우 효율적인 폐쇄형 프롬프트 최적화 과정을 가능하게 합니다. 폭넓은 실험을 통해 VQQA가 시각적 결함을 효과적으로 격리 및 해결하여 단 몇 번의 개선 단계만으로 생성 품질을 크게 향상시킴을 입증했습니다. 텍스트-투-비디오(T2V) 및 이미지-투-비디오(I2V) 작업 모두에 적용 가능한 본 방법론은 T2V-CompBench에서 +11.57%, VBench2에서 +8.43%의 절대적 성능 향상을 달성하여 최첨단 확률적 탐색 및 프롬프트 최적화 기술을 크게 능가합니다.
English
Despite rapid advancements in video generation models, aligning their outputs with complex user intent remains challenging. Existing test-time optimization methods are typically either computationally expensive or require white-box access to model internals. To address this, we present VQQA (Video Quality Question Answering), a unified, multi-agent framework generalizable across diverse input modalities and video generation tasks. By dynamically generating visual questions and using the resulting Vision-Language Model (VLM) critiques as semantic gradients, VQQA replaces traditional, passive evaluation metrics with human-interpretable, actionable feedback. This enables a highly efficient, closed-loop prompt optimization process via a black-box natural language interface. Extensive experiments demonstrate that VQQA effectively isolates and resolves visual artifacts, substantially improving generation quality in just a few refinement steps. Applicable to both text-to-video (T2V) and image-to-video (I2V) tasks, our method achieves absolute improvements of +11.57% on T2V-CompBench and +8.43% on VBench2 over vanilla generation, significantly outperforming state-of-the-art stochastic search and prompt optimization techniques.
PDF81March 30, 2026