ChatPaper.aiChatPaper

SridBench: Benchmark für die Erstellung wissenschaftlicher Forschungsillustrationen durch Bildgenerierungsmodelle

SridBench: Benchmark of Scientific Research Illustration Drawing of Image Generation Model

May 28, 2025
Autoren: Yifan Chang, Yukang Feng, Jianwen Sun, Jiaxin Ai, Chuanhao Li, S. Kevin Zhou, Kaipeng Zhang
cs.AI

Zusammenfassung

In den letzten Jahren gab es rasante Fortschritte bei der KI-gestützten Bildgenerierung. Frühe Diffusionsmodelle legten den Schwerpunkt auf die Wahrnehmungsqualität, während neuere multimodale Modelle wie GPT-4o-image höhere Denkfähigkeiten integrieren, was das semantische Verständnis und die strukturelle Komposition verbessert. Die Generierung wissenschaftlicher Illustrationen veranschaulicht diese Entwicklung: Im Gegensatz zur allgemeinen Bildsynthese erfordert sie eine präzise Interpretation technischer Inhalte und die Transformation abstrakter Ideen in klare, standardisierte Visualisierungen. Diese Aufgabe ist deutlich wissensintensiver und arbeitsaufwendiger und erfordert oft Stunden manueller Arbeit sowie spezialisierte Werkzeuge. Eine automatisierte, kontrollierbare und intelligente Lösung hierfür würde einen erheblichen praktischen Nutzen bieten. Bislang existiert jedoch kein Benchmark, um KI in diesem Bereich zu bewerten. Um diese Lücke zu schließen, führen wir SridBench ein, den ersten Benchmark für die Generierung wissenschaftlicher Abbildungen. Er umfasst 1.120 Instanzen, die aus führenden wissenschaftlichen Publikationen in 13 Natur- und Informatikdisziplinen kuratiert und von menschlichen Experten sowie MLLMs gesammelt wurden. Jede Probe wird entlang sechs Dimensionen bewertet, darunter semantische Treue und strukturelle Genauigkeit. Experimentelle Ergebnisse zeigen, dass selbst Spitzenmodelle wie GPT-4o-image hinter der menschlichen Leistung zurückbleiben, mit häufigen Problemen in der Text-/Bildklarheit und wissenschaftlichen Korrektheit. Diese Erkenntnisse unterstreichen die Notwendigkeit fortschrittlicherer, reasoning-gestützter Fähigkeiten in der visuellen Generierung.
English
Recent years have seen rapid advances in AI-driven image generation. Early diffusion models emphasized perceptual quality, while newer multimodal models like GPT-4o-image integrate high-level reasoning, improving semantic understanding and structural composition. Scientific illustration generation exemplifies this evolution: unlike general image synthesis, it demands accurate interpretation of technical content and transformation of abstract ideas into clear, standardized visuals. This task is significantly more knowledge-intensive and laborious, often requiring hours of manual work and specialized tools. Automating it in a controllable, intelligent manner would provide substantial practical value. Yet, no benchmark currently exists to evaluate AI on this front. To fill this gap, we introduce SridBench, the first benchmark for scientific figure generation. It comprises 1,120 instances curated from leading scientific papers across 13 natural and computer science disciplines, collected via human experts and MLLMs. Each sample is evaluated along six dimensions, including semantic fidelity and structural accuracy. Experimental results reveal that even top-tier models like GPT-4o-image lag behind human performance, with common issues in text/visual clarity and scientific correctness. These findings highlight the need for more advanced reasoning-driven visual generation capabilities.

Summary

AI-Generated Summary

PDF42May 30, 2025