Agente de Evaluación: Marco de Evaluación Eficiente y Promptable para Modelos Generativos Visuales
Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models
December 10, 2024
Autores: Fan Zhang, Shulin Tian, Ziqi Huang, Yu Qiao, Ziwei Liu
cs.AI
Resumen
Los avances recientes en modelos generativos visuales han permitido la generación de imágenes y videos de alta calidad, abriendo diversas aplicaciones. Sin embargo, evaluar estos modelos a menudo requiere muestrear cientos o miles de imágenes o videos, lo que hace que el proceso sea computacionalmente costoso, especialmente para modelos basados en difusión con un muestreo intrínsecamente lento. Además, los métodos de evaluación existentes se basan en flujos rígidos que pasan por alto las necesidades específicas del usuario y proporcionan resultados numéricos sin explicaciones claras. En contraste, los humanos pueden formar rápidamente impresiones sobre las capacidades de un modelo observando solo unas pocas muestras. Para imitar esto, proponemos el marco de Evaluación de Agente, que emplea estrategias humanas para evaluaciones eficientes, dinámicas y multi-ronda utilizando solo unas pocas muestras por ronda, al tiempo que ofrece análisis detallados y adaptados al usuario. Ofrece cuatro ventajas clave: 1) eficiencia, 2) evaluación adaptable a diversas necesidades de usuario, 3) explicabilidad más allá de puntuaciones numéricas individuales, y 4) escalabilidad en diversos modelos y herramientas. Los experimentos muestran que Evaluación de Agente reduce el tiempo de evaluación al 10% de los métodos tradicionales mientras entrega resultados comparables. El marco de Evaluación de Agente está completamente abierto para avanzar en la investigación en modelos generativos visuales y su evaluación eficiente.
English
Recent advancements in visual generative models have enabled high-quality
image and video generation, opening diverse applications. However, evaluating
these models often demands sampling hundreds or thousands of images or videos,
making the process computationally expensive, especially for diffusion-based
models with inherently slow sampling. Moreover, existing evaluation methods
rely on rigid pipelines that overlook specific user needs and provide numerical
results without clear explanations. In contrast, humans can quickly form
impressions of a model's capabilities by observing only a few samples. To mimic
this, we propose the Evaluation Agent framework, which employs human-like
strategies for efficient, dynamic, multi-round evaluations using only a few
samples per round, while offering detailed, user-tailored analyses. It offers
four key advantages: 1) efficiency, 2) promptable evaluation tailored to
diverse user needs, 3) explainability beyond single numerical scores, and 4)
scalability across various models and tools. Experiments show that Evaluation
Agent reduces evaluation time to 10% of traditional methods while delivering
comparable results. The Evaluation Agent framework is fully open-sourced to
advance research in visual generative models and their efficient evaluation.Summary
AI-Generated Summary