ChatPaper.aiChatPaper

GenExam: Un Examen Multidisciplinario de Texto a Imagen

GenExam: A Multidisciplinary Text-to-Image Exam

September 17, 2025
Autores: Zhaokai Wang, Penghao Yin, Xiangyu Zhao, Changyao Tian, Yu Qiao, Wenhai Wang, Jifeng Dai, Gen Luo
cs.AI

Resumen

Los exámenes son una prueba fundamental de inteligencia a nivel experto y requieren una comprensión, razonamiento y generación integrados. Los benchmarks existentes de estilo examen se centran principalmente en tareas de comprensión y razonamiento, mientras que los benchmarks actuales de generación enfatizan la ilustración de conocimiento del mundo y conceptos visuales, descuidando la evaluación de exámenes de dibujo rigurosos. Presentamos GenExam, el primer benchmark para exámenes multidisciplinarios de texto a imagen, que incluye 1,000 muestras en 10 materias con indicaciones de estilo examen organizadas bajo una taxonomía de cuatro niveles. Cada problema está equipado con imágenes de referencia y puntos de puntuación detallados para permitir una evaluación precisa de la corrección semántica y la plausibilidad visual. Los experimentos muestran que incluso modelos de última generación como GPT-Image-1 y Gemini-2.5-Flash-Image obtienen menos del 15% en puntuaciones estrictas, y la mayoría de los modelos alcanzan casi un 0%, lo que sugiere el gran desafío que representa nuestro benchmark. Al enmarcar la generación de imágenes como un examen, GenExam ofrece una evaluación rigurosa de la capacidad de los modelos para integrar conocimiento, razonamiento y generación, proporcionando insights sobre el camino hacia la AGI general.
English
Exams are a fundamental test of expert-level intelligence and require integrated understanding, reasoning, and generation. Existing exam-style benchmarks mainly focus on understanding and reasoning tasks, and current generation benchmarks emphasize the illustration of world knowledge and visual concepts, neglecting the evaluation of rigorous drawing exams. We introduce GenExam, the first benchmark for multidisciplinary text-to-image exams, featuring 1,000 samples across 10 subjects with exam-style prompts organized under a four-level taxonomy. Each problem is equipped with ground-truth images and fine-grained scoring points to enable a precise evaluation of semantic correctness and visual plausibility. Experiments show that even state-of-the-art models such as GPT-Image-1 and Gemini-2.5-Flash-Image achieve less than 15% strict scores, and most models yield almost 0%, suggesting the great challenge of our benchmark. By framing image generation as an exam, GenExam offers a rigorous assessment of models' ability to integrate knowledge, reasoning, and generation, providing insights on the path to general AGI.
PDF151September 18, 2025