SridBench: Evaluación de la Generación de Ilustraciones para Investigación Científica en Modelos de Generación de Imágenes
SridBench: Benchmark of Scientific Research Illustration Drawing of Image Generation Model
May 28, 2025
Autores: Yifan Chang, Yukang Feng, Jianwen Sun, Jiaxin Ai, Chuanhao Li, S. Kevin Zhou, Kaipeng Zhang
cs.AI
Resumen
En los últimos años, se han observado avances rápidos en la generación de imágenes impulsada por IA. Los primeros modelos de difusión se centraban en la calidad perceptual, mientras que modelos multimodales más recientes como GPT-4o-image integran razonamiento de alto nivel, mejorando la comprensión semántica y la composición estructural. La generación de ilustraciones científicas ejemplifica esta evolución: a diferencia de la síntesis general de imágenes, requiere una interpretación precisa de contenido técnico y la transformación de ideas abstractas en visuales claros y estandarizados. Esta tarea es significativamente más intensiva en conocimiento y laboriosa, a menudo requiriendo horas de trabajo manual y herramientas especializadas. Automatizarla de manera controlada e inteligente proporcionaría un valor práctico sustancial. Sin embargo, actualmente no existe un punto de referencia para evaluar la IA en este aspecto. Para llenar este vacío, presentamos SridBench, el primer punto de referencia para la generación de figuras científicas. Este comprende 1,120 instancias seleccionadas de artículos científicos líderes en 13 disciplinas de ciencias naturales y computación, recopiladas mediante expertos humanos y MLLMs. Cada muestra se evalúa en seis dimensiones, incluyendo fidelidad semántica y precisión estructural. Los resultados experimentales revelan que incluso modelos de primer nivel como GPT-4o-image están por detrás del rendimiento humano, con problemas comunes en la claridad texto/visual y la corrección científica. Estos hallazgos resaltan la necesidad de capacidades más avanzadas de generación visual impulsada por razonamiento.
English
Recent years have seen rapid advances in AI-driven image generation. Early
diffusion models emphasized perceptual quality, while newer multimodal models
like GPT-4o-image integrate high-level reasoning, improving semantic
understanding and structural composition. Scientific illustration generation
exemplifies this evolution: unlike general image synthesis, it demands accurate
interpretation of technical content and transformation of abstract ideas into
clear, standardized visuals. This task is significantly more
knowledge-intensive and laborious, often requiring hours of manual work and
specialized tools. Automating it in a controllable, intelligent manner would
provide substantial practical value. Yet, no benchmark currently exists to
evaluate AI on this front. To fill this gap, we introduce SridBench, the first
benchmark for scientific figure generation. It comprises 1,120 instances
curated from leading scientific papers across 13 natural and computer science
disciplines, collected via human experts and MLLMs. Each sample is evaluated
along six dimensions, including semantic fidelity and structural accuracy.
Experimental results reveal that even top-tier models like GPT-4o-image lag
behind human performance, with common issues in text/visual clarity and
scientific correctness. These findings highlight the need for more advanced
reasoning-driven visual generation capabilities.Summary
AI-Generated Summary