UniREditBench: Un Punto de Referencia Unificado para la Edición de Imágenes Basado en el Razonamiento
UniREditBench: A Unified Reasoning-based Image Editing Benchmark
November 3, 2025
Autores: Feng Han, Yibin Wang, Chenglin Li, Zheming Liang, Dianyi Wang, Yang Jiao, Zhipeng Wei, Chao Gong, Cheng Jin, Jingjing Chen, Jiaqi Wang
cs.AI
Resumen
Los recientes avances en modelos generativos multimodales han impulsado mejoras sustanciales en la edición de imágenes. Sin embargo, los modelos generativos actuales aún presentan dificultades para manejar tareas de edición de imágenes diversas y complejas que requieren razonamiento implícito, lo que subraya la necesidad de un benchmark integral para evaluar sistemáticamente su rendimiento en diversos escenarios de razonamiento. Los benchmarks existentes se centran principalmente en la transformación de atributos de objetos únicos en escenarios realistas, los cuales, si bien son efectivos, enfrentan dos desafíos clave: (1) en gran medida pasan por alto las interacciones multiobjeto, así como los escenarios de mundo de juego que involucran reglas definidas por humanos, comunes en aplicaciones de la vida real; (2) solo se basan en referencias textuales para evaluar las imágenes generadas, lo que potencialmente conduce a errores de juicio sistemáticos, especialmente en escenarios de razonamiento complejos. Para ello, este trabajo propone UniREditBench, un benchmark unificado para la evaluación de la edición de imágenes basada en razonamiento. Comprende 2.700 muestras meticulosamente curadas, que cubren escenarios tanto del mundo real como de juego a través de 8 dimensiones principales y 18 subdimensiones. Para mejorar la fiabilidad de la evaluación, introducimos la evaluación de referencia dual multimodal, proporcionando referencias tanto textuales como de imagen de ground-truth para cada evaluación de muestra. Además, diseñamos una pipeline automatizada de síntesis de datos multi-escenario y construimos UniREdit-Data-100K, un conjunto de datos sintético a gran escala con anotaciones de razonamiento de cadena de pensamiento (CoT) de alta calidad. Ajustamos Bagel en este conjunto de datos y desarrollamos UniREdit-Bagel, que demuestra mejoras sustanciales tanto en configuraciones dentro del dominio como fuera de la distribución. Mediante una evaluación exhaustiva de modelos de edición de imágenes tanto de código abierto como cerrado, revelamos sus fortalezas y debilidades en varios aspectos.
English
Recent advances in multi-modal generative models have driven substantial
improvements in image editing. However, current generative models still
struggle with handling diverse and complex image editing tasks that require
implicit reasoning, underscoring the need for a comprehensive benchmark to
systematically assess their performance across various reasoning scenarios.
Existing benchmarks primarily focus on single-object attribute transformation
in realistic scenarios, which, while effective, encounter two key challenges:
(1) they largely overlook multi-object interactions as well as game-world
scenarios that involve human-defined rules, which are common in real-life
applications; (2) they only rely on textual references to evaluate the
generated images, potentially leading to systematic misjudgments, especially in
complex reasoning scenarios. To this end, this work proposes UniREditBench, a
unified benchmark for reasoning-based image editing evaluation. It comprises
2,700 meticulously curated samples, covering both real- and game-world
scenarios across 8 primary dimensions and 18 sub-dimensions. To improve
evaluation reliability, we introduce multimodal dual-reference evaluation,
providing both textual and ground-truth image references for each sample
assessment. Furthermore, we design an automated multi-scenario data synthesis
pipeline and construct UniREdit-Data-100K, a large-scale synthetic dataset with
high-quality chain-of-thought (CoT) reasoning annotations. We fine-tune Bagel
on this dataset and develop UniREdit-Bagel, demonstrating substantial
improvements in both in-domain and out-of-distribution settings. Through
thorough benchmarking of both open-source and closed-source image editing
models, we reveal their strengths and weaknesses across various aspects.