Evaluatie Agent: Efficiënt en Aanpasbaar Evaluatiekader voor Visuele Generatieve Modellen
Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models
December 10, 2024
Auteurs: Fan Zhang, Shulin Tian, Ziqi Huang, Yu Qiao, Ziwei Liu
cs.AI
Samenvatting
Recente ontwikkelingen in visuele generatieve modellen hebben hoogwaardige beeld- en videogeneratie mogelijk gemaakt, waardoor diverse toepassingen ontstaan. Het evalueren van deze modellen vereist echter vaak het monsteren van honderden of duizenden afbeeldingen of video's, wat het proces rekenkundig duur maakt, vooral voor diffusie-gebaseerde modellen met inherent trage monsterneming. Bovendien steunen bestaande evaluatiemethoden op rigide pipelines die specifieke gebruikersbehoeften over het hoofd zien en numerieke resultaten bieden zonder duidelijke uitleg. In tegenstelling hiermee kunnen mensen snel indrukken vormen van de capaciteiten van een model door slechts een paar monsters te observeren. Om dit na te bootsen, stellen we het Evaluatie Agent-framework voor, dat mensachtige strategieën gebruikt voor efficiënte, dynamische, meertraps evaluaties met slechts een paar monsters per ronde, terwijl gedetailleerde, op maat gemaakte analyses worden geboden. Het biedt vier belangrijke voordelen: 1) efficiëntie, 2) aanpasbare evaluatie afgestemd op diverse gebruikersbehoeften, 3) uitlegbaarheid voorbij enkele numerieke scores, en 4) schaalbaarheid over diverse modellen en tools. Experimenten tonen aan dat het Evaluatie Agent-framework de evaluatietijd verlaagt tot 10% van traditionele methoden terwijl vergelijkbare resultaten worden behaald. Het Evaluatie Agent-framework is volledig open source om onderzoek naar visuele generatieve modellen en hun efficiënte evaluatie te bevorderen.
English
Recent advancements in visual generative models have enabled high-quality
image and video generation, opening diverse applications. However, evaluating
these models often demands sampling hundreds or thousands of images or videos,
making the process computationally expensive, especially for diffusion-based
models with inherently slow sampling. Moreover, existing evaluation methods
rely on rigid pipelines that overlook specific user needs and provide numerical
results without clear explanations. In contrast, humans can quickly form
impressions of a model's capabilities by observing only a few samples. To mimic
this, we propose the Evaluation Agent framework, which employs human-like
strategies for efficient, dynamic, multi-round evaluations using only a few
samples per round, while offering detailed, user-tailored analyses. It offers
four key advantages: 1) efficiency, 2) promptable evaluation tailored to
diverse user needs, 3) explainability beyond single numerical scores, and 4)
scalability across various models and tools. Experiments show that Evaluation
Agent reduces evaluation time to 10% of traditional methods while delivering
comparable results. The Evaluation Agent framework is fully open-sourced to
advance research in visual generative models and their efficient evaluation.