GRADE: Оценка дисциплинарно-обоснованного мышления при редактировании изображений

Аннотация

Унифицированные мультимодальные модели направлены на совместное понимание, рассуждение и генерацию, однако современные бенчмарки редактирования изображений в основном ограничены натуральными изображениями и поверхностными рассуждениями на основе здравого смысла, что не позволяет адекватно оценить эти возможности в условиях структурированных, предметно-ориентированных ограничений. В данной работе мы представляем GRADE — первый бенчмарк для оценки предметно-ориентированных знаний и рассуждений при редактировании изображений. GRADE включает 520 тщательно отобранных примеров из 10 академических областей, от естественных до социальных наук. Для обеспечения строгой оценки мы предлагаем многомерный протокол, совместно оценивающий предметные рассуждения, визуальную согласованность и логическую читаемость. Масштабные эксперименты с 20 передовыми открытыми и проприетарными моделями выявили существенные ограничения современных моделей в условиях неявного, насыщенного знаниями редактирования, что приводит к значительному разрыву в производительности. Помимо количественных оценок, мы проводим строгий анализ и абляции, чтобы выявить недостатки моделей и определить ограничения в рамках предметного редактирования. В совокупности GRADE определяет ключевые направления для будущего развития унифицированных мультимодальных моделей, продвигая исследования в области предметно-ориентированного редактирования изображений и рассуждений. Наш бенчмарк и код оценки публично доступны.

English

Unified multimodal models target joint understanding, reasoning, and generation, but current image editing benchmarks are largely confined to natural images and shallow commonsense reasoning, offering limited assessment of this capability under structured, domain-specific constraints. In this work, we introduce GRADE, the first benchmark to assess discipline-informed knowledge and reasoning in image editing. GRADE comprises 520 carefully curated samples across 10 academic domains, spanning from natural science to social science. To support rigorous evaluation, we propose a multi-dimensional evaluation protocol that jointly assesses Discipline Reasoning, Visual Consistency, and Logical Readability. Extensive experiments on 20 state-of-the-art open-source and closed-source models reveal substantial limitations in current models under implicit, knowledge-intensive editing settings, leading to large performance gaps. Beyond quantitative scores, we conduct rigorous analyses and ablations to expose model shortcomings and identify the constraints within disciplinary editing. Together, GRADE pinpoints key directions for the future development of unified multimodal models, advancing the research on discipline-informed image editing and reasoning. Our benchmark and evaluation code are publicly released.

GRADE: Оценка дисциплинарно-обоснованного мышления при редактировании изображений

GRADE: Benchmarking Discipline-Informed Reasoning in Image Editing

Аннотация

Support