SridBench: Benchmark voor Wetenschappelijke Onderzoeksillustraties van Beeldgeneratiemodellen
SridBench: Benchmark of Scientific Research Illustration Drawing of Image Generation Model
May 28, 2025
Auteurs: Yifan Chang, Yukang Feng, Jianwen Sun, Jiaxin Ai, Chuanhao Li, S. Kevin Zhou, Kaipeng Zhang
cs.AI
Samenvatting
De afgelopen jaren zijn er snelle vooruitgangen geboekt in AI-gestuurde beeldgeneratie. Vroege diffusiemodellen legden de nadruk op perceptuele kwaliteit, terwijl nieuwere multimodale modellen zoals GPT-4o-image hoogwaardig redeneren integreren, wat het semantisch begrip en de structurele compositie verbetert. De generatie van wetenschappelijke illustraties illustreert deze evolutie: in tegenstelling tot algemene beeldgeneratie vereist dit een nauwkeurige interpretatie van technische inhoud en de transformatie van abstracte ideeën naar duidelijke, gestandaardiseerde visuals. Deze taak is aanzienlijk kennisintensiever en arbeidsintensiever, waarbij vaak uren handmatig werk en gespecialiseerde tools nodig zijn. Het automatiseren hiervan op een controleerbare, intelligente manier zou aanzienlijke praktische waarde bieden. Toch bestaat er momenteel geen benchmark om AI op dit gebied te evalueren. Om deze leemte op te vullen, introduceren we SridBench, de eerste benchmark voor wetenschappelijke figuurgeneratie. Deze bestaat uit 1.120 gevallen, samengesteld uit toonaangevende wetenschappelijke artikelen uit 13 natuur- en computerwetenschappelijke disciplines, verzameld door menselijke experts en MLLMs. Elk monster wordt geëvalueerd langs zes dimensies, waaronder semantische trouw en structurele nauwkeurigheid. Experimentele resultaten tonen aan dat zelfs topmodellen zoals GPT-4o-image achterblijven bij menselijke prestaties, met veelvoorkomende problemen in tekst/visuele helderheid en wetenschappelijke correctheid. Deze bevindingen benadrukken de noodzaak voor meer geavanceerde, redeneringsgestuurde visuele generatiecapaciteiten.
English
Recent years have seen rapid advances in AI-driven image generation. Early
diffusion models emphasized perceptual quality, while newer multimodal models
like GPT-4o-image integrate high-level reasoning, improving semantic
understanding and structural composition. Scientific illustration generation
exemplifies this evolution: unlike general image synthesis, it demands accurate
interpretation of technical content and transformation of abstract ideas into
clear, standardized visuals. This task is significantly more
knowledge-intensive and laborious, often requiring hours of manual work and
specialized tools. Automating it in a controllable, intelligent manner would
provide substantial practical value. Yet, no benchmark currently exists to
evaluate AI on this front. To fill this gap, we introduce SridBench, the first
benchmark for scientific figure generation. It comprises 1,120 instances
curated from leading scientific papers across 13 natural and computer science
disciplines, collected via human experts and MLLMs. Each sample is evaluated
along six dimensions, including semantic fidelity and structural accuracy.
Experimental results reveal that even top-tier models like GPT-4o-image lag
behind human performance, with common issues in text/visual clarity and
scientific correctness. These findings highlight the need for more advanced
reasoning-driven visual generation capabilities.