WiseEdit: Benchmark per la Modifica di Immagini Basata su Cognizione e Creatività
WiseEdit: Benchmarking Cognition- and Creativity-Informed Image Editing
November 29, 2025
Autori: Kaihang Pan, Weile Chen, Haiyi Qiu, Qifan Yu, Wendong Bu, Zehan Wang, Yun Zhu, Juncheng Li, Siliang Tang
cs.AI
Abstract
I recenti modelli di editing di immagini vantano capacità intelligenti di livello superiore, facilitando la modifica delle immagini basata su cognizione e creatività. Tuttavia, gli attuali benchmark forniscono un ambito di valutazione troppo ristretto, non riuscendo a valutare in modo olistico queste capacità avanzate. Per affrontare questa lacuna, introduciamo WiseEdit, un benchmark a elevata intensità di conoscenza per la valutazione completa dell'editing di immagini informato da cognizione e creatività, caratterizzato da una profonda profondità dei compiti e da un'ampia ampiezza di conoscenze. Traendo un'analogia con la creazione cognitiva umana, WiseEdit scompone l'editing di immagini in tre passaggi a cascata: Consapevolezza, Interpretazione e Immaginazione, ciascuno corrispondente a un compito che rappresenta una sfida per i modelli da completare in quella fase specifica. Include anche compiti complessi, in cui nessuno dei tre passaggi può essere completato facilmente. Inoltre, WiseEdit incorpora tre tipi fondamentali di conoscenza: conoscenza Dichiarativa, Procedurale e Metacognitiva. In definitiva, WiseEdit comprende 1.220 casi di test, rivelando oggettivamente i limiti dei modelli di editing di immagini allo stato dell'arte nelle capacità di ragionamento cognitivo basato sulla conoscenza e di composizione creativa. Il benchmark, il codice di valutazione e le immagini generate da ciascun modello saranno presto resi pubblicamente disponibili. Pagina del progetto: https://qnancy.github.io/wiseedit_project_page/.
English
Recent image editing models boast next-level intelligent capabilities, facilitating cognition- and creativity-informed image editing. Yet, existing benchmarks provide too narrow a scope for evaluation, failing to holistically assess these advanced abilities. To address this, we introduce WiseEdit, a knowledge-intensive benchmark for comprehensive evaluation of cognition- and creativity-informed image editing, featuring deep task depth and broad knowledge breadth. Drawing an analogy to human cognitive creation, WiseEdit decomposes image editing into three cascaded steps, i.e., Awareness, Interpretation, and Imagination, each corresponding to a task that poses a challenge for models to complete at the specific step. It also encompasses complex tasks, where none of the three steps can be finished easily. Furthermore, WiseEdit incorporates three fundamental types of knowledge: Declarative, Procedural, and Metacognitive knowledge. Ultimately, WiseEdit comprises 1,220 test cases, objectively revealing the limitations of SoTA image editing models in knowledge-based cognitive reasoning and creative composition capabilities. The benchmark, evaluation code, and the generated images of each model will be made publicly available soon. Project Page: https://qnancy.github.io/wiseedit_project_page/.