SridBench: Benchmark für die Erstellung wissenschaftlicher Forschungsillustrationen durch Bildgenerierungsmodelle
SridBench: Benchmark of Scientific Research Illustration Drawing of Image Generation Model
May 28, 2025
Autoren: Yifan Chang, Yukang Feng, Jianwen Sun, Jiaxin Ai, Chuanhao Li, S. Kevin Zhou, Kaipeng Zhang
cs.AI
Zusammenfassung
In den letzten Jahren gab es rasante Fortschritte bei der KI-gestützten Bildgenerierung. Frühe Diffusionsmodelle legten den Schwerpunkt auf die Wahrnehmungsqualität, während neuere multimodale Modelle wie GPT-4o-image höhere Denkfähigkeiten integrieren, was das semantische Verständnis und die strukturelle Komposition verbessert. Die Generierung wissenschaftlicher Illustrationen veranschaulicht diese Entwicklung: Im Gegensatz zur allgemeinen Bildsynthese erfordert sie eine präzise Interpretation technischer Inhalte und die Transformation abstrakter Ideen in klare, standardisierte Visualisierungen. Diese Aufgabe ist deutlich wissensintensiver und arbeitsaufwendiger und erfordert oft Stunden manueller Arbeit sowie spezialisierte Werkzeuge. Eine automatisierte, kontrollierbare und intelligente Lösung hierfür würde einen erheblichen praktischen Nutzen bieten. Bislang existiert jedoch kein Benchmark, um KI in diesem Bereich zu bewerten. Um diese Lücke zu schließen, führen wir SridBench ein, den ersten Benchmark für die Generierung wissenschaftlicher Abbildungen. Er umfasst 1.120 Instanzen, die aus führenden wissenschaftlichen Publikationen in 13 Natur- und Informatikdisziplinen kuratiert und von menschlichen Experten sowie MLLMs gesammelt wurden. Jede Probe wird entlang sechs Dimensionen bewertet, darunter semantische Treue und strukturelle Genauigkeit. Experimentelle Ergebnisse zeigen, dass selbst Spitzenmodelle wie GPT-4o-image hinter der menschlichen Leistung zurückbleiben, mit häufigen Problemen in der Text-/Bildklarheit und wissenschaftlichen Korrektheit. Diese Erkenntnisse unterstreichen die Notwendigkeit fortschrittlicherer, reasoning-gestützter Fähigkeiten in der visuellen Generierung.
English
Recent years have seen rapid advances in AI-driven image generation. Early
diffusion models emphasized perceptual quality, while newer multimodal models
like GPT-4o-image integrate high-level reasoning, improving semantic
understanding and structural composition. Scientific illustration generation
exemplifies this evolution: unlike general image synthesis, it demands accurate
interpretation of technical content and transformation of abstract ideas into
clear, standardized visuals. This task is significantly more
knowledge-intensive and laborious, often requiring hours of manual work and
specialized tools. Automating it in a controllable, intelligent manner would
provide substantial practical value. Yet, no benchmark currently exists to
evaluate AI on this front. To fill this gap, we introduce SridBench, the first
benchmark for scientific figure generation. It comprises 1,120 instances
curated from leading scientific papers across 13 natural and computer science
disciplines, collected via human experts and MLLMs. Each sample is evaluated
along six dimensions, including semantic fidelity and structural accuracy.
Experimental results reveal that even top-tier models like GPT-4o-image lag
behind human performance, with common issues in text/visual clarity and
scientific correctness. These findings highlight the need for more advanced
reasoning-driven visual generation capabilities.Summary
AI-Generated Summary