UniREditBench: Um Benchmark Unificado de Edição de Imagens Baseado em Raciocínio
UniREditBench: A Unified Reasoning-based Image Editing Benchmark
November 3, 2025
Autores: Feng Han, Yibin Wang, Chenglin Li, Zheming Liang, Dianyi Wang, Yang Jiao, Zhipeng Wei, Chao Gong, Cheng Jin, Jingjing Chen, Jiaqi Wang
cs.AI
Resumo
Os recentes avanços em modelos generativos multimodais têm impulsionado melhorias substanciais na edição de imagens. No entanto, os modelos generativos atuais ainda lutam para lidar com tarefas de edição de imagem diversas e complexas que exigem raciocínio implícito, ressaltando a necessidade de um benchmark abrangente para avaliar sistematicamente seu desempenho em vários cenários de raciocínio. Os benchmarks existentes concentram-se principalmente na transformação de atributos de objeto único em cenários realistas, que, embora eficazes, enfrentam dois desafios principais: (1) eles ignoram amplamente as interações multiobjeto, bem como cenários de mundo de jogo que envolvem regras definidas pelo homem, comuns em aplicações da vida real; (2) eles dependem apenas de referências textuais para avaliar as imagens geradas, potencialmente levando a erros de julgamento sistemáticos, especialmente em cenários de raciocínio complexos. Para tanto, este trabalho propõe o UniREditBench, um benchmark unificado para avaliação de edição de imagem baseada em raciocínio. Ele compreende 2.700 amostras criteriosamente curadas, abrangendo cenários do mundo real e do mundo dos jogos em 8 dimensões primárias e 18 subdimensões. Para melhorar a confiabilidade da avaliação, introduzimos a avaliação de referência dual multimodal, fornecendo referências textais e de imagem de ground-truth para cada avaliação de amostra. Além disso, projetamos um pipeline automatizado de síntese de dados multi-cenário e construímos o UniREdit-Data-100K, um grande conjunto de dados sintético com anotações de raciocínio chain-of-thought (CoT) de alta qualidade. Ajustamos o Bagel neste conjunto de dados e desenvolvemos o UniREdit-Bagel, demonstrando melhorias substanciais tanto em configurações in-domain quanto out-of-distribution. Através de um benchmarking abrangente de modelos de edição de imagem de código aberto e proprietários, revelamos seus pontos fortes e fracos em vários aspectos.
English
Recent advances in multi-modal generative models have driven substantial
improvements in image editing. However, current generative models still
struggle with handling diverse and complex image editing tasks that require
implicit reasoning, underscoring the need for a comprehensive benchmark to
systematically assess their performance across various reasoning scenarios.
Existing benchmarks primarily focus on single-object attribute transformation
in realistic scenarios, which, while effective, encounter two key challenges:
(1) they largely overlook multi-object interactions as well as game-world
scenarios that involve human-defined rules, which are common in real-life
applications; (2) they only rely on textual references to evaluate the
generated images, potentially leading to systematic misjudgments, especially in
complex reasoning scenarios. To this end, this work proposes UniREditBench, a
unified benchmark for reasoning-based image editing evaluation. It comprises
2,700 meticulously curated samples, covering both real- and game-world
scenarios across 8 primary dimensions and 18 sub-dimensions. To improve
evaluation reliability, we introduce multimodal dual-reference evaluation,
providing both textual and ground-truth image references for each sample
assessment. Furthermore, we design an automated multi-scenario data synthesis
pipeline and construct UniREdit-Data-100K, a large-scale synthetic dataset with
high-quality chain-of-thought (CoT) reasoning annotations. We fine-tune Bagel
on this dataset and develop UniREdit-Bagel, demonstrating substantial
improvements in both in-domain and out-of-distribution settings. Through
thorough benchmarking of both open-source and closed-source image editing
models, we reveal their strengths and weaknesses across various aspects.