ChatPaper.aiChatPaper

UniREditBench: 통합 추론 기반 이미지 편집 벤치마크

UniREditBench: A Unified Reasoning-based Image Editing Benchmark

November 3, 2025
저자: Feng Han, Yibin Wang, Chenglin Li, Zheming Liang, Dianyi Wang, Yang Jiao, Zhipeng Wei, Chao Gong, Cheng Jin, Jingjing Chen, Jiaqi Wang
cs.AI

초록

최근 멀티모달 생성 모델의 발전으로 이미지 편집 기술이 크게 향상되었습니다. 그러나 현재의 생성 모델은 암묵적 추론을 요구하는 다양하고 복잡한 이미지 편집 작업을 다루는 데 여전히 어려움을 겪고 있으며, 이는 다양한 추론 시나리오에서의 성능을 체계적으로 평가하기 위한 포괄적인 벤치마크의 필요성을 강조합니다. 기존 벤치마크는 주로 현실적 시나리오에서의 단일 객체 속성 변환에 초점을 맞추고 있으며, 이는 효과적이지만 두 가지 주요 과제에 직면합니다: (1) 실제 응용에서 흔히 나타나는 다중 객체 상호작용과 인간이 정의한 규칙이 포함된 게임 세계 시나리오를 크게 간과한다는 점; (2) 생성된 이미지를 평가하는 데 텍스트 참조만을 의존하여 특히 복잡한 추론 시나리오에서 체계적인 오판으로 이어질 수 있다는 점. 이를 위해 본 연구에서는 추론 기반 이미지 편집 평가를 위한 통합 벤치마크인 UniREditBench를 제안합니다. 이 벤치마크는 8개 주요 차원과 18개 하위 차원에 걸쳐 현실 세계와 게임 세계 시나리오를 모두 아우르는 2,700개의 정교하게 선별된 샘플로 구성됩니다. 평가 신뢰성을 향상시키기 위해 각 샘플 평가에 텍스트 참조와 실제 이미지 참조를 모두 제공하는 멀티모달 이중 참조 평가 방식을 도입했습니다. 더 나아가 자동화된 다중 시나리오 데이터 합성 파이프라인을 설계하고 고품질 사고 연쇄(CoT) 추론 주석이 포함된 대규모 합성 데이터셋인 UniREdit-Data-100K를 구축했습니다. 이 데이터셋으로 Bagel 모델을 미세 조정하여 UniREdit-Bagel을 개발했으며, 인-도메인 및 분포 외 설정에서 모두 상당한 성능 향상을 입증했습니다. 오픈소스와 클로즈드소스 이미지 편집 모델에 대한 철저한 벤치마킹을 통해 다양한 측면에서 각 모델의 강점과 약점을 규명했습니다.
English
Recent advances in multi-modal generative models have driven substantial improvements in image editing. However, current generative models still struggle with handling diverse and complex image editing tasks that require implicit reasoning, underscoring the need for a comprehensive benchmark to systematically assess their performance across various reasoning scenarios. Existing benchmarks primarily focus on single-object attribute transformation in realistic scenarios, which, while effective, encounter two key challenges: (1) they largely overlook multi-object interactions as well as game-world scenarios that involve human-defined rules, which are common in real-life applications; (2) they only rely on textual references to evaluate the generated images, potentially leading to systematic misjudgments, especially in complex reasoning scenarios. To this end, this work proposes UniREditBench, a unified benchmark for reasoning-based image editing evaluation. It comprises 2,700 meticulously curated samples, covering both real- and game-world scenarios across 8 primary dimensions and 18 sub-dimensions. To improve evaluation reliability, we introduce multimodal dual-reference evaluation, providing both textual and ground-truth image references for each sample assessment. Furthermore, we design an automated multi-scenario data synthesis pipeline and construct UniREdit-Data-100K, a large-scale synthetic dataset with high-quality chain-of-thought (CoT) reasoning annotations. We fine-tune Bagel on this dataset and develop UniREdit-Bagel, demonstrating substantial improvements in both in-domain and out-of-distribution settings. Through thorough benchmarking of both open-source and closed-source image editing models, we reveal their strengths and weaknesses across various aspects.
PDF381January 19, 2026