Agent d'Évaluation : Cadre d'Évaluation Efficace et Interrogeable pour les Modèles Génératifs Visuels
Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models
December 10, 2024
Auteurs: Fan Zhang, Shulin Tian, Ziqi Huang, Yu Qiao, Ziwei Liu
cs.AI
Résumé
Les récents progrès dans les modèles génératifs visuels ont permis une génération d'images et de vidéos de haute qualité, ouvrant la voie à diverses applications. Cependant, l'évaluation de ces modèles exige souvent l'échantillonnage de centaines voire de milliers d'images ou de vidéos, rendant le processus coûteux en termes de calcul, surtout pour les modèles basés sur la diffusion qui ont un échantillonnage intrinsèquement lent. De plus, les méthodes d'évaluation existantes reposent sur des pipelines rigides qui négligent les besoins spécifiques des utilisateurs et fournissent des résultats numériques sans explications claires. En revanche, les humains peuvent rapidement se faire une idée des capacités d'un modèle en observant seulement quelques échantillons. Pour reproduire cela, nous proposons le cadre de l'Agent d'Évaluation, qui utilise des stratégies semblables à celles des humains pour des évaluations efficaces, dynamiques et multi-tours en n'utilisant qu'un petit nombre d'échantillons par tour, tout en offrant des analyses détaillées et adaptées à l'utilisateur. Il offre quatre avantages clés : 1) efficacité, 2) évaluation adaptable aux besoins divers des utilisateurs, 3) explicabilité au-delà de simples scores numériques, et 4) extensibilité à travers différents modèles et outils. Les expériences montrent que l'Agent d'Évaluation réduit le temps d'évaluation à 10 % des méthodes traditionnelles tout en fournissant des résultats comparables. Le cadre de l'Agent d'Évaluation est entièrement open source pour faire progresser la recherche dans les modèles génératifs visuels et leur évaluation efficace.
English
Recent advancements in visual generative models have enabled high-quality
image and video generation, opening diverse applications. However, evaluating
these models often demands sampling hundreds or thousands of images or videos,
making the process computationally expensive, especially for diffusion-based
models with inherently slow sampling. Moreover, existing evaluation methods
rely on rigid pipelines that overlook specific user needs and provide numerical
results without clear explanations. In contrast, humans can quickly form
impressions of a model's capabilities by observing only a few samples. To mimic
this, we propose the Evaluation Agent framework, which employs human-like
strategies for efficient, dynamic, multi-round evaluations using only a few
samples per round, while offering detailed, user-tailored analyses. It offers
four key advantages: 1) efficiency, 2) promptable evaluation tailored to
diverse user needs, 3) explainability beyond single numerical scores, and 4)
scalability across various models and tools. Experiments show that Evaluation
Agent reduces evaluation time to 10% of traditional methods while delivering
comparable results. The Evaluation Agent framework is fully open-sourced to
advance research in visual generative models and their efficient evaluation.Summary
AI-Generated Summary