評価エージェント:視覚生成モデル向けの効率的かつ迅速な評価フレームワーク
Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models
December 10, 2024
著者: Fan Zhang, Shulin Tian, Ziqi Huang, Yu Qiao, Ziwei Liu
cs.AI
要旨
最近の視覚生成モデルの進歩により、高品質な画像やビデオの生成が可能となり、多様な応用が開かれています。しかし、これらのモデルの評価はしばしば数百から数千の画像やビデオをサンプリングすることを要求し、特に拡散ベースのモデルではサンプリングが遅いため、計算コストが高くなります。さらに、既存の評価方法は特定のユーザーのニーズを見落とし、明確な説明なしに数値結果を提供する硬直したパイプラインに依存しています。それに対し、人間はわずか数サンプルを観察するだけでモデルの能力について迅速に印象を形成することができます。このような点を模倣するために、私たちは「Evaluation Agentフレームワーク」を提案します。このフレームワークは、人間のような戦略を用いて、効率的で動的で多段階の評価を少数のサンプルで行い、詳細でユーザーに合わせた分析を提供します。このフレームワークには以下の4つの主な利点があります:1) 効率性、2) 多様なユーザーのニーズに合わせた柔軟な評価、3) 数値スコアを超えた説明可能性、および4) 様々なモデルやツールにわたるスケーラビリティ。実験によると、Evaluation Agentは伝統的な方法に比べて評価時間を10%に短縮し、同等の結果を提供します。Evaluation Agentフレームワークは、視覚生成モデルとその効率的な評価の研究を推進するために完全にオープンソース化されています。
English
Recent advancements in visual generative models have enabled high-quality
image and video generation, opening diverse applications. However, evaluating
these models often demands sampling hundreds or thousands of images or videos,
making the process computationally expensive, especially for diffusion-based
models with inherently slow sampling. Moreover, existing evaluation methods
rely on rigid pipelines that overlook specific user needs and provide numerical
results without clear explanations. In contrast, humans can quickly form
impressions of a model's capabilities by observing only a few samples. To mimic
this, we propose the Evaluation Agent framework, which employs human-like
strategies for efficient, dynamic, multi-round evaluations using only a few
samples per round, while offering detailed, user-tailored analyses. It offers
four key advantages: 1) efficiency, 2) promptable evaluation tailored to
diverse user needs, 3) explainability beyond single numerical scores, and 4)
scalability across various models and tools. Experiments show that Evaluation
Agent reduces evaluation time to 10% of traditional methods while delivering
comparable results. The Evaluation Agent framework is fully open-sourced to
advance research in visual generative models and their efficient evaluation.Summary
AI-Generated Summary