GRADE: Evaluación del Razonamiento Basado en Disciplinas en la Edición de Imágenes

Resumen

Los modelos multimodales unificados buscan la comprensión, el razonamiento y la generación conjunta, pero los puntos de referencia actuales para la edición de imágenes se limitan en gran medida a imágenes naturales y a un razonamiento de sentido común superficial, lo que ofrece una evaluación limitada de esta capacidad bajo restricciones estructuradas y específicas del dominio. En este trabajo, presentamos GRADE, el primer punto de referencia para evaluar el conocimiento y el razonamiento basados en disciplinas en la edición de imágenes. GRADE comprende 520 muestras cuidadosamente seleccionadas de 10 dominios académicos, que abarcan desde las ciencias naturales hasta las ciencias sociales. Para respaldar una evaluación rigurosa, proponemos un protocolo de evaluación multidimensional que valora conjuntamente el Razonamiento Disciplinario, la Coherencia Visual y la Legibilidad Lógica. Experimentos exhaustivos con 20 modelos de código abierto y propietarios de última generación revelan limitaciones sustanciales en los modelos actuales bajo configuraciones de edición implícitas e intensivas en conocimiento, lo que resulta en grandes brechas de rendimiento. Más allá de las puntuaciones cuantitativas, realizamos análisis y ablaciones rigurosos para exponer las deficiencias de los modelos e identificar las restricciones dentro de la edición disciplinaria. En conjunto, GRADE señala direcciones clave para el desarrollo futuro de los modelos multimodales unificados, avanzando en la investigación sobre la edición de imágenes y el razonamiento basados en disciplinas. Nuestro punto de referencia y nuestro código de evaluación se han publicado públicamente.

English

Unified multimodal models target joint understanding, reasoning, and generation, but current image editing benchmarks are largely confined to natural images and shallow commonsense reasoning, offering limited assessment of this capability under structured, domain-specific constraints. In this work, we introduce GRADE, the first benchmark to assess discipline-informed knowledge and reasoning in image editing. GRADE comprises 520 carefully curated samples across 10 academic domains, spanning from natural science to social science. To support rigorous evaluation, we propose a multi-dimensional evaluation protocol that jointly assesses Discipline Reasoning, Visual Consistency, and Logical Readability. Extensive experiments on 20 state-of-the-art open-source and closed-source models reveal substantial limitations in current models under implicit, knowledge-intensive editing settings, leading to large performance gaps. Beyond quantitative scores, we conduct rigorous analyses and ablations to expose model shortcomings and identify the constraints within disciplinary editing. Together, GRADE pinpoints key directions for the future development of unified multimodal models, advancing the research on discipline-informed image editing and reasoning. Our benchmark and evaluation code are publicly released.

GRADE: Evaluación del Razonamiento Basado en Disciplinas en la Edición de Imágenes

GRADE: Benchmarking Discipline-Informed Reasoning in Image Editing

Resumen

Support