UniREditBench: Um Benchmark Unificado de Edição de Imagens Baseado em Raciocínio

Resumo

Os recentes avanços em modelos generativos multimodais têm impulsionado melhorias substanciais na edição de imagens. No entanto, os modelos generativos atuais ainda lutam para lidar com tarefas de edição de imagem diversas e complexas que exigem raciocínio implícito, ressaltando a necessidade de um benchmark abrangente para avaliar sistematicamente seu desempenho em vários cenários de raciocínio. Os benchmarks existentes concentram-se principalmente na transformação de atributos de objeto único em cenários realistas, que, embora eficazes, enfrentam dois desafios principais: (1) eles ignoram amplamente as interações multiobjeto, bem como cenários de mundo de jogo que envolvem regras definidas pelo homem, comuns em aplicações da vida real; (2) eles dependem apenas de referências textuais para avaliar as imagens geradas, potencialmente levando a erros de julgamento sistemáticos, especialmente em cenários de raciocínio complexos. Para tanto, este trabalho propõe o UniREditBench, um benchmark unificado para avaliação de edição de imagem baseada em raciocínio. Ele compreende 2.700 amostras criteriosamente curadas, abrangendo cenários do mundo real e do mundo dos jogos em 8 dimensões primárias e 18 subdimensões. Para melhorar a confiabilidade da avaliação, introduzimos a avaliação de referência dual multimodal, fornecendo referências textais e de imagem de ground-truth para cada avaliação de amostra. Além disso, projetamos um pipeline automatizado de síntese de dados multi-cenário e construímos o UniREdit-Data-100K, um grande conjunto de dados sintético com anotações de raciocínio chain-of-thought (CoT) de alta qualidade. Ajustamos o Bagel neste conjunto de dados e desenvolvemos o UniREdit-Bagel, demonstrando melhorias substanciais tanto em configurações in-domain quanto out-of-distribution. Através de um benchmarking abrangente de modelos de edição de imagem de código aberto e proprietários, revelamos seus pontos fortes e fracos em vários aspectos.

English

Recent advances in multi-modal generative models have driven substantial improvements in image editing. However, current generative models still struggle with handling diverse and complex image editing tasks that require implicit reasoning, underscoring the need for a comprehensive benchmark to systematically assess their performance across various reasoning scenarios. Existing benchmarks primarily focus on single-object attribute transformation in realistic scenarios, which, while effective, encounter two key challenges: (1) they largely overlook multi-object interactions as well as game-world scenarios that involve human-defined rules, which are common in real-life applications; (2) they only rely on textual references to evaluate the generated images, potentially leading to systematic misjudgments, especially in complex reasoning scenarios. To this end, this work proposes UniREditBench, a unified benchmark for reasoning-based image editing evaluation. It comprises 2,700 meticulously curated samples, covering both real- and game-world scenarios across 8 primary dimensions and 18 sub-dimensions. To improve evaluation reliability, we introduce multimodal dual-reference evaluation, providing both textual and ground-truth image references for each sample assessment. Furthermore, we design an automated multi-scenario data synthesis pipeline and construct UniREdit-Data-100K, a large-scale synthetic dataset with high-quality chain-of-thought (CoT) reasoning annotations. We fine-tune Bagel on this dataset and develop UniREdit-Bagel, demonstrating substantial improvements in both in-domain and out-of-distribution settings. Through thorough benchmarking of both open-source and closed-source image editing models, we reveal their strengths and weaknesses across various aspects.

UniREditBench: Um Benchmark Unificado de Edição de Imagens Baseado em Raciocínio

UniREditBench: A Unified Reasoning-based Image Editing Benchmark

Resumo

Support