GenExam: Um Exame Multidisciplinar de Texto para Imagem
GenExam: A Multidisciplinary Text-to-Image Exam
September 17, 2025
Autores: Zhaokai Wang, Penghao Yin, Xiangyu Zhao, Changyao Tian, Yu Qiao, Wenhai Wang, Jifeng Dai, Gen Luo
cs.AI
Resumo
Exames são um teste fundamental da inteligência em nível de especialista e exigem compreensão integrada, raciocínio e geração. Os benchmarks existentes no estilo de exames focam principalmente em tarefas de compreensão e raciocínio, e os atuais benchmarks de geração enfatizam a ilustração de conhecimento mundial e conceitos visuais, negligenciando a avaliação de exames rigorosos de desenho. Apresentamos o GenExam, o primeiro benchmark para exames multidisciplinares de texto para imagem, contendo 1.000 amostras em 10 disciplinas com prompts no estilo de exames organizados sob uma taxonomia de quatro níveis. Cada problema é equipado com imagens de referência e pontos de pontuação detalhados para permitir uma avaliação precisa da correção semântica e plausibilidade visual. Experimentos mostram que até modelos de última geração, como GPT-Image-1 e Gemini-2.5-Flash-Image, alcançam menos de 15% em pontuações estritas, e a maioria dos modelos obtém quase 0%, sugerindo o grande desafio do nosso benchmark. Ao enquadrar a geração de imagens como um exame, o GenExam oferece uma avaliação rigorosa da capacidade dos modelos de integrar conhecimento, raciocínio e geração, fornecendo insights sobre o caminho para a AGI geral.
English
Exams are a fundamental test of expert-level intelligence and require
integrated understanding, reasoning, and generation. Existing exam-style
benchmarks mainly focus on understanding and reasoning tasks, and current
generation benchmarks emphasize the illustration of world knowledge and visual
concepts, neglecting the evaluation of rigorous drawing exams. We introduce
GenExam, the first benchmark for multidisciplinary text-to-image exams,
featuring 1,000 samples across 10 subjects with exam-style prompts organized
under a four-level taxonomy. Each problem is equipped with ground-truth images
and fine-grained scoring points to enable a precise evaluation of semantic
correctness and visual plausibility. Experiments show that even
state-of-the-art models such as GPT-Image-1 and Gemini-2.5-Flash-Image achieve
less than 15% strict scores, and most models yield almost 0%, suggesting the
great challenge of our benchmark. By framing image generation as an exam,
GenExam offers a rigorous assessment of models' ability to integrate knowledge,
reasoning, and generation, providing insights on the path to general AGI.