UniREditBench: Унифицированный бенчмарк редактирования изображений на основе рассуждений
UniREditBench: A Unified Reasoning-based Image Editing Benchmark
November 3, 2025
Авторы: Feng Han, Yibin Wang, Chenglin Li, Zheming Liang, Dianyi Wang, Yang Jiao, Zhipeng Wei, Chao Gong, Cheng Jin, Jingjing Chen, Jiaqi Wang
cs.AI
Аннотация
Последние достижения в области мультимодальных генеративных моделей привели к значительному прогрессу в редактировании изображений. Однако современные генеративные модели по-прежнему испытывают трудности с выполнением разнообразных и сложных задач редактирования изображений, требующих неявных рассуждений, что подчеркивает необходимость создания комплексного бенчмарка для систематической оценки их производительности в различных сценариях рассуждений. Существующие бенчмарки в основном сосредоточены на трансформации атрибутов одиночных объектов в реалистичных сценариях, что, хотя и эффективно, сталкивается с двумя ключевыми проблемами: (1) они в значительной степени игнорируют взаимодействия множественных объектов, а также сценарии игровых миров, включающие правила, определенные человеком, которые распространены в реальных приложениях; (2) они полагаются исключительно на текстовые ссылки для оценки сгенерированных изображений, что может приводить к систематическим ошибкам в оценке, особенно в сложных сценариях рассуждений. Для решения этих проблем в данной работе предлагается UniREditBench — унифицированный бенчмарк для оценки редактирования изображений на основе рассуждений. Он включает 2700 тщательно отобранных образцов, охватывающих как реальные, так и игровые сценарии по 8 основным и 18 вспомогательным измерениям. Для повышения надежности оценки мы вводим мультимодальную оценку с двойными ссылками, предоставляя как текстовые, так и эталонные изображения для каждой оценки образца. Кроме того, мы разрабатываем автоматизированный конвейер синтеза данных для многопользовательских сценариев и создаем UniREdit-Data-100K — крупномасштабный синтетический набор данных с высококачественными аннотациями цепочек рассуждений. Мы дообучаем модель Bagel на этом наборе данных и создаем UniREdit-Bagel, демонстрирующую значительное улучшение производительности как в рамках распределения обучающих данных, так и за его пределами. Проведя тщательное тестирование моделей редактирования изображений с открытым и закрытым исходным кодом, мы выявляем их сильные и слабые стороны в различных аспектах.
English
Recent advances in multi-modal generative models have driven substantial
improvements in image editing. However, current generative models still
struggle with handling diverse and complex image editing tasks that require
implicit reasoning, underscoring the need for a comprehensive benchmark to
systematically assess their performance across various reasoning scenarios.
Existing benchmarks primarily focus on single-object attribute transformation
in realistic scenarios, which, while effective, encounter two key challenges:
(1) they largely overlook multi-object interactions as well as game-world
scenarios that involve human-defined rules, which are common in real-life
applications; (2) they only rely on textual references to evaluate the
generated images, potentially leading to systematic misjudgments, especially in
complex reasoning scenarios. To this end, this work proposes UniREditBench, a
unified benchmark for reasoning-based image editing evaluation. It comprises
2,700 meticulously curated samples, covering both real- and game-world
scenarios across 8 primary dimensions and 18 sub-dimensions. To improve
evaluation reliability, we introduce multimodal dual-reference evaluation,
providing both textual and ground-truth image references for each sample
assessment. Furthermore, we design an automated multi-scenario data synthesis
pipeline and construct UniREdit-Data-100K, a large-scale synthetic dataset with
high-quality chain-of-thought (CoT) reasoning annotations. We fine-tune Bagel
on this dataset and develop UniREdit-Bagel, demonstrating substantial
improvements in both in-domain and out-of-distribution settings. Through
thorough benchmarking of both open-source and closed-source image editing
models, we reveal their strengths and weaknesses across various aspects.