Унифицированный агентный фреймворк для оценки условной генерации изображений
A Unified Agentic Framework for Evaluating Conditional Image Generation
April 9, 2025
Авторы: Jifang Wang, Xue Yang, Longyue Wang, Zhenran Xu, Yiyu Wang, Yaowei Wang, Weihua Luo, Kaifu Zhang, Baotian Hu, Min Zhang
cs.AI
Аннотация
Генерация изображений с условиями привлекает значительное внимание благодаря своей способности персонализировать контент. Однако в этой области существуют сложности в разработке универсальных, надежных и объяснимых метрик оценки. В данной статье представлен CIGEval — унифицированный агентный фреймворк для комплексной оценки задач генерации изображений с условиями. CIGEval использует крупные мультимодальные модели (LMM) в качестве ядра, интегрируя многофункциональный инструментарий и создавая детализированную систему оценки. Кроме того, мы синтезируем траектории оценки для тонкой настройки, позволяя меньшим LMM автономно выбирать подходящие инструменты и проводить детальный анализ на основе их результатов. Эксперименты на семи ключевых задачах генерации изображений с условиями показывают, что CIGEval (версия GPT-4o) достигает высокой корреляции 0,4625 с оценками людей, что близко к межэкспертной корреляции 0,47. Более того, при реализации с использованием открытых LMM объемом 7B и всего 2,3K обучающих траекторий CIGEval превосходит предыдущий метод, основанный на GPT-4o. Кейс-стади по генерации изображений с помощью GPT-4o подчеркивают способность CIGEval выявлять тонкие проблемы, связанные с согласованностью объектов и соблюдением управляющих указаний, что указывает на его большой потенциал для автоматизации оценки задач генерации изображений с надежностью, сопоставимой с человеческой.
English
Conditional image generation has gained significant attention for its ability
to personalize content. However, the field faces challenges in developing
task-agnostic, reliable, and explainable evaluation metrics. This paper
introduces CIGEval, a unified agentic framework for comprehensive evaluation of
conditional image generation tasks. CIGEval utilizes large multimodal models
(LMMs) as its core, integrating a multi-functional toolbox and establishing a
fine-grained evaluation framework. Additionally, we synthesize evaluation
trajectories for fine-tuning, empowering smaller LMMs to autonomously select
appropriate tools and conduct nuanced analyses based on tool outputs.
Experiments across seven prominent conditional image generation tasks
demonstrate that CIGEval (GPT-4o version) achieves a high correlation of 0.4625
with human assessments, closely matching the inter-annotator correlation of
0.47. Moreover, when implemented with 7B open-source LMMs using only 2.3K
training trajectories, CIGEval surpasses the previous GPT-4o-based
state-of-the-art method. Case studies on GPT-4o image generation highlight
CIGEval's capability in identifying subtle issues related to subject
consistency and adherence to control guidance, indicating its great potential
for automating evaluation of image generation tasks with human-level
reliability.Summary
AI-Generated Summary