VQQA: 映像評価と品質向上のためのエージェント的アプローチ

要旨

動画生成モデルの急速な進展にもかかわらず、その出力を複雑なユーザー意図に整合させることは依然として課題である。既存のテスト時最適化手法は、計算コストが高いか、モデル内部へのホワイトボックスアクセスを必要とする場合が一般的である。この問題に対処するため、我々はVQQA（Video Quality Question Answering）を提案する。これは多様な入力モダリティと動画生成タスクに汎化可能な、統合されたマルチエージェントフレームワークである。VQQAは視覚的質問を動的に生成し、その結果得られるVision-Language Model（VLM）の批評を意味的勾配として利用することで、従来の受動的評価指標を、人間が解釈可能で実践的なフィードバックに置き換える。これにより、ブラックボックスな自然言語インターフェースを介した、高効率な閉ループプロンプト最適化プロセスを実現する。大規模な実験により、VQQAが視覚的アーティファクトを効果的に特定・解決し、少数の改良ステップで生成品質を大幅に向上させることを実証した。テキストから動画（T2V）と画像から動画（I2V）の両タスクに適用可能な本手法は、T2V-CompBenchで+11.57%、VBench2で+8.43%の絶対改善を達成し、最先端の確率的探索およびプロンプト最適化技術を大幅に上回る性能を示した。

English

Despite rapid advancements in video generation models, aligning their outputs with complex user intent remains challenging. Existing test-time optimization methods are typically either computationally expensive or require white-box access to model internals. To address this, we present VQQA (Video Quality Question Answering), a unified, multi-agent framework generalizable across diverse input modalities and video generation tasks. By dynamically generating visual questions and using the resulting Vision-Language Model (VLM) critiques as semantic gradients, VQQA replaces traditional, passive evaluation metrics with human-interpretable, actionable feedback. This enables a highly efficient, closed-loop prompt optimization process via a black-box natural language interface. Extensive experiments demonstrate that VQQA effectively isolates and resolves visual artifacts, substantially improving generation quality in just a few refinement steps. Applicable to both text-to-video (T2V) and image-to-video (I2V) tasks, our method achieves absolute improvements of +11.57% on T2V-CompBench and +8.43% on VBench2 over vanilla generation, significantly outperforming state-of-the-art stochastic search and prompt optimization techniques.

VQQA: 映像評価と品質向上のためのエージェント的アプローチ

VQQA: An Agentic Approach for Video Evaluation and Quality Improvement

要旨

Support