WiseEdit: Een benchmark voor op cognitie en creativiteit gebaseerde beeldbewerking
WiseEdit: Benchmarking Cognition- and Creativity-Informed Image Editing
November 29, 2025
Auteurs: Kaihang Pan, Weile Chen, Haiyi Qiu, Qifan Yu, Wendong Bu, Zehan Wang, Yun Zhu, Juncheng Li, Siliang Tang
cs.AI
Samenvatting
Recente beeldbewerkingsmodellen pronken met intelligente mogelijkheden van het hoogste niveau, waardoor beeldbewerking op basis van cognitie en creativiteit wordt vergemakkelijkt. Toch bieden bestaande benchmarks een te beperkte evaluatiereikwijdte, waardoor deze geavanceerde vaardigheden niet holistisch kunnen worden beoordeeld. Om dit aan te pakken, introduceren we WiseEdit, een kennisintensieve benchmark voor een uitgebreide evaluatie van beeldbewerking op basis van cognitie en creativiteit, met een diepe taakcomplexiteit en brede kennisomvang. In analogie met menselijke cognitieve creatie deelt WiseEdit beeldbewerking op in drie opeenvolgende stappen, namelijk Bewustzijn, Interpretatie en Verbeelding, waarbij elke stap overeenkomt met een taak die een uitdaging vormt voor modellen om op dat specifieke niveau te voltooien. Het omvat ook complexe taken waarin geen van de drie stappen eenvoudig kan worden afgerond. Verder integreert WiseEdit drie fundamentele soorten kennis: Declaratieve, Procedurele en Metacognitieve kennis. Uiteindelijk bestaat WiseEdit uit 1.220 testgevallen, die objectief de beperkingen van state-of-the-art beeldbewerkingsmodellen aantonen op het gebied van kennisgebaseerd cognitief redeneren en creatieve compositievaardigheden. De benchmark, evaluatiecode en de gegenereerde afbeeldingen van elk model zullen binnenkort openbaar beschikbaar worden gesteld. Projectpagina: https://qnancy.github.io/wiseedit_project_page/.
English
Recent image editing models boast next-level intelligent capabilities, facilitating cognition- and creativity-informed image editing. Yet, existing benchmarks provide too narrow a scope for evaluation, failing to holistically assess these advanced abilities. To address this, we introduce WiseEdit, a knowledge-intensive benchmark for comprehensive evaluation of cognition- and creativity-informed image editing, featuring deep task depth and broad knowledge breadth. Drawing an analogy to human cognitive creation, WiseEdit decomposes image editing into three cascaded steps, i.e., Awareness, Interpretation, and Imagination, each corresponding to a task that poses a challenge for models to complete at the specific step. It also encompasses complex tasks, where none of the three steps can be finished easily. Furthermore, WiseEdit incorporates three fundamental types of knowledge: Declarative, Procedural, and Metacognitive knowledge. Ultimately, WiseEdit comprises 1,220 test cases, objectively revealing the limitations of SoTA image editing models in knowledge-based cognitive reasoning and creative composition capabilities. The benchmark, evaluation code, and the generated images of each model will be made publicly available soon. Project Page: https://qnancy.github.io/wiseedit_project_page/.