ChatPaper.aiChatPaper

WiseEdit : Évaluation comparative de l'édition d'images intégrant la cognition et la créativité

WiseEdit: Benchmarking Cognition- and Creativity-Informed Image Editing

November 29, 2025
papers.authors: Kaihang Pan, Weile Chen, Haiyi Qiu, Qifan Yu, Wendong Bu, Zehan Wang, Yun Zhu, Juncheng Li, Siliang Tang
cs.AI

papers.abstract

Les modèles récents d'édition d'images possèdent des capacités intelligentes de pointe, facilitant l'édition d'images fondée sur la cognition et la créativité. Pourtant, les benchmarks existants offrent un champ d'évaluation trop restreint, ne permettant pas d'évaluer de manière holistique ces capacités avancées. Pour remédier à cela, nous présentons WiseEdit, un benchmark à forte intensité de connaissances pour l'évaluation complète de l'édition d'images éclairée par la cognition et la créativité, caractérisé par une profondeur de tâche importante et une largeur de connaissances étendue. Par analogie avec la création cognitive humaine, WiseEdit décompose l'édition d'images en trois étapes en cascade : la Prise de conscience, l'Interprétation et l'Imagination, chacune correspondant à une tâche qui représente un défi pour les modèles à accomplir à l'étape spécifique. Il inclut également des tâches complexes, où aucune des trois étapes ne peut être facilement terminée. De plus, WiseEdit intègre trois types fondamentaux de connaissances : les connaissances Déclaratives, Procédurales et Métacognitives. Au final, WiseEdit comprend 1 220 cas de test, révélant objectivement les limites des modèles d'édition d'images à l'état de l'art en matière de capacités de raisonnement cognitif basé sur les connaissances et de composition créative. Le benchmark, le code d'évaluation et les images générées par chaque modèle seront bientôt rendus publics. Page du projet : https://qnancy.github.io/wiseedit_project_page/.
English
Recent image editing models boast next-level intelligent capabilities, facilitating cognition- and creativity-informed image editing. Yet, existing benchmarks provide too narrow a scope for evaluation, failing to holistically assess these advanced abilities. To address this, we introduce WiseEdit, a knowledge-intensive benchmark for comprehensive evaluation of cognition- and creativity-informed image editing, featuring deep task depth and broad knowledge breadth. Drawing an analogy to human cognitive creation, WiseEdit decomposes image editing into three cascaded steps, i.e., Awareness, Interpretation, and Imagination, each corresponding to a task that poses a challenge for models to complete at the specific step. It also encompasses complex tasks, where none of the three steps can be finished easily. Furthermore, WiseEdit incorporates three fundamental types of knowledge: Declarative, Procedural, and Metacognitive knowledge. Ultimately, WiseEdit comprises 1,220 test cases, objectively revealing the limitations of SoTA image editing models in knowledge-based cognitive reasoning and creative composition capabilities. The benchmark, evaluation code, and the generated images of each model will be made publicly available soon. Project Page: https://qnancy.github.io/wiseedit_project_page/.
PDF21December 3, 2025