SridBench: Benchmark de Ilustração de Pesquisa Científica para Modelos de Geração de Imagens
SridBench: Benchmark of Scientific Research Illustration Drawing of Image Generation Model
May 28, 2025
Autores: Yifan Chang, Yukang Feng, Jianwen Sun, Jiaxin Ai, Chuanhao Li, S. Kevin Zhou, Kaipeng Zhang
cs.AI
Resumo
Nos últimos anos, observamos avanços rápidos na geração de imagens impulsionada pela IA. Os primeiros modelos de difusão enfatizavam a qualidade perceptual, enquanto modelos multimodais mais recentes, como o GPT-4o-image, integram raciocínio de alto nível, melhorando a compreensão semântica e a composição estrutural. A geração de ilustrações científicas exemplifica essa evolução: ao contrário da síntese geral de imagens, ela exige uma interpretação precisa de conteúdo técnico e a transformação de ideias abstratas em visuais claros e padronizados. Essa tarefa é significativamente mais intensiva em conhecimento e trabalhosa, frequentemente exigindo horas de trabalho manual e ferramentas especializadas. Automatizá-la de maneira controlável e inteligente traria um valor prático substancial. No entanto, atualmente não existe um benchmark para avaliar a IA nesse aspecto. Para preencher essa lacuna, introduzimos o SridBench, o primeiro benchmark para geração de figuras científicas. Ele compreende 1.120 instâncias curadas de artigos científicos líderes em 13 disciplinas das ciências naturais e da computação, coletadas por meio de especialistas humanos e MLLMs. Cada amostra é avaliada em seis dimensões, incluindo fidelidade semântica e precisão estrutural. Os resultados experimentais revelam que até mesmo modelos de ponta, como o GPT-4o-image, ficam aquém do desempenho humano, com problemas comuns em clareza textual/visual e correção científica. Essas descobertas destacam a necessidade de capacidades mais avançadas de geração visual orientada por raciocínio.
English
Recent years have seen rapid advances in AI-driven image generation. Early
diffusion models emphasized perceptual quality, while newer multimodal models
like GPT-4o-image integrate high-level reasoning, improving semantic
understanding and structural composition. Scientific illustration generation
exemplifies this evolution: unlike general image synthesis, it demands accurate
interpretation of technical content and transformation of abstract ideas into
clear, standardized visuals. This task is significantly more
knowledge-intensive and laborious, often requiring hours of manual work and
specialized tools. Automating it in a controllable, intelligent manner would
provide substantial practical value. Yet, no benchmark currently exists to
evaluate AI on this front. To fill this gap, we introduce SridBench, the first
benchmark for scientific figure generation. It comprises 1,120 instances
curated from leading scientific papers across 13 natural and computer science
disciplines, collected via human experts and MLLMs. Each sample is evaluated
along six dimensions, including semantic fidelity and structural accuracy.
Experimental results reveal that even top-tier models like GPT-4o-image lag
behind human performance, with common issues in text/visual clarity and
scientific correctness. These findings highlight the need for more advanced
reasoning-driven visual generation capabilities.