GRADE: Avaliação do Raciocínio Baseado em Disciplinas na Edição de Imagens

Resumo

Os modelos multimodais unificados visam a compreensão, raciocínio e geração conjuntos, mas os atuais benchmarks de edição de imagens estão amplamente confinados a imagens naturais e raciocínio de senso comum superficial, oferecendo uma avaliação limitada dessa capacidade sob restrições estruturadas e específicas de domínio. Neste trabalho, introduzimos o GRADE, o primeiro benchmark para avaliar conhecimento e raciocínio fundamentados em disciplinas na edição de imagens. O GRADE compreende 520 amostras cuidadosamente curadas em 10 domínios acadêmicos, abrangendo desde ciências naturais até ciências sociais. Para apoiar uma avaliação rigorosa, propomos um protocolo de avaliação multidimensional que avalia conjuntamente Raciocínio Disciplinar, Consistência Visual e Legibilidade Lógica. Experimentos extensos em 20 modelos de última geração, de código aberto e proprietários, revelam limitações substanciais nos modelos atuais sob configurações de edição implícitas e intensivas em conhecimento, resultando em grandes lacunas de desempenho. Além dos escores quantitativos, conduzimos análises e ablações rigorosas para expor deficiências dos modelos e identificar as restrições dentro da edição disciplinar. Juntos, o GRADE aponta direções-chave para o desenvolvimento futuro de modelos multimodais unificados, avançando a pesquisa em edição de imagens e raciocínio fundamentados em disciplinas. Nosso benchmark e código de avaliação são disponibilizados publicamente.

English

Unified multimodal models target joint understanding, reasoning, and generation, but current image editing benchmarks are largely confined to natural images and shallow commonsense reasoning, offering limited assessment of this capability under structured, domain-specific constraints. In this work, we introduce GRADE, the first benchmark to assess discipline-informed knowledge and reasoning in image editing. GRADE comprises 520 carefully curated samples across 10 academic domains, spanning from natural science to social science. To support rigorous evaluation, we propose a multi-dimensional evaluation protocol that jointly assesses Discipline Reasoning, Visual Consistency, and Logical Readability. Extensive experiments on 20 state-of-the-art open-source and closed-source models reveal substantial limitations in current models under implicit, knowledge-intensive editing settings, leading to large performance gaps. Beyond quantitative scores, we conduct rigorous analyses and ablations to expose model shortcomings and identify the constraints within disciplinary editing. Together, GRADE pinpoints key directions for the future development of unified multimodal models, advancing the research on discipline-informed image editing and reasoning. Our benchmark and evaluation code are publicly released.

GRADE: Avaliação do Raciocínio Baseado em Disciplinas na Edição de Imagens

GRADE: Benchmarking Discipline-Informed Reasoning in Image Editing

Resumo

Support