ChatPaper.aiChatPaper

WiseEdit: Evaluación de la Edición de Imágenes Basada en Cognición y Creatividad

WiseEdit: Benchmarking Cognition- and Creativity-Informed Image Editing

November 29, 2025
Autores: Kaihang Pan, Weile Chen, Haiyi Qiu, Qifan Yu, Wendong Bu, Zehan Wang, Yun Zhu, Juncheng Li, Siliang Tang
cs.AI

Resumen

Los modelos recientes de edición de imágenes poseen capacidades inteligentes de última generación, facilitando la edición de imágenes basada en cognición y creatividad. Sin embargo, los puntos de referencia existentes ofrecen un ámbito de evaluación demasiado limitado, sin lograr evaluar de manera integral estas capacidades avanzadas. Para abordar esto, presentamos WiseEdit, un punto de referencia intensivo en conocimiento para la evaluación integral de la edición de imágenes basada en cognición y creatividad, que presenta una profundidad de tarea profunda y una amplitud de conocimiento amplia. Haciendo una analogía con la creación cognitiva humana, WiseEdit descompone la edición de imágenes en tres pasos en cascada: Conciencia, Interpretación e Imaginación, cada uno correspondiente a una tarea que supone un desafío para que los modelos completen en el paso específico. También abarca tareas complejas, donde ninguno de los tres pasos puede completarse fácilmente. Además, WiseEdit incorpora tres tipos fundamentales de conocimiento: conocimiento declarativo, procedimental y metacognitivo. En última instancia, WiseEdit comprende 1.220 casos de prueba, revelando objetivamente las limitaciones de los modelos de edición de imágenes SoTA en capacidades de razonamiento cognitivo basado en conocimiento y composición creativa. El punto de referencia, el código de evaluación y las imágenes generadas por cada modelo se harán públicos próximamente. Página del proyecto: https://qnancy.github.io/wiseedit_project_page/.
English
Recent image editing models boast next-level intelligent capabilities, facilitating cognition- and creativity-informed image editing. Yet, existing benchmarks provide too narrow a scope for evaluation, failing to holistically assess these advanced abilities. To address this, we introduce WiseEdit, a knowledge-intensive benchmark for comprehensive evaluation of cognition- and creativity-informed image editing, featuring deep task depth and broad knowledge breadth. Drawing an analogy to human cognitive creation, WiseEdit decomposes image editing into three cascaded steps, i.e., Awareness, Interpretation, and Imagination, each corresponding to a task that poses a challenge for models to complete at the specific step. It also encompasses complex tasks, where none of the three steps can be finished easily. Furthermore, WiseEdit incorporates three fundamental types of knowledge: Declarative, Procedural, and Metacognitive knowledge. Ultimately, WiseEdit comprises 1,220 test cases, objectively revealing the limitations of SoTA image editing models in knowledge-based cognitive reasoning and creative composition capabilities. The benchmark, evaluation code, and the generated images of each model will be made publicly available soon. Project Page: https://qnancy.github.io/wiseedit_project_page/.
PDF21December 3, 2025