SridBench : Benchmark d'Illustration de Recherche Scientifique pour les Modèles de Génération d'Images
SridBench: Benchmark of Scientific Research Illustration Drawing of Image Generation Model
May 28, 2025
Auteurs: Yifan Chang, Yukang Feng, Jianwen Sun, Jiaxin Ai, Chuanhao Li, S. Kevin Zhou, Kaipeng Zhang
cs.AI
Résumé
Ces dernières années ont vu des avancées rapides dans la génération d'images pilotée par l'IA. Les premiers modèles de diffusion mettaient l'accent sur la qualité perceptuelle, tandis que les nouveaux modèles multimodaux comme GPT-4o-image intègrent un raisonnement de haut niveau, améliorant la compréhension sémantique et la composition structurelle. La génération d'illustrations scientifiques illustre bien cette évolution : contrairement à la synthèse d'images générales, elle exige une interprétation précise du contenu technique et la transformation d'idées abstraites en visuels clairs et standardisés. Cette tâche est nettement plus exigeante en connaissances et laborieuse, nécessitant souvent des heures de travail manuel et des outils spécialisés. L'automatiser de manière contrôlée et intelligente apporterait une valeur pratique substantielle. Pourtant, aucun benchmark n'existe actuellement pour évaluer l'IA sur ce front. Pour combler cette lacune, nous introduisons SridBench, le premier benchmark dédié à la génération de figures scientifiques. Il comprend 1 120 instances sélectionnées à partir d'articles scientifiques de premier plan dans 13 disciplines des sciences naturelles et informatiques, collectées par des experts humains et des MLLMs. Chaque échantillon est évalué selon six dimensions, incluant la fidélité sémantique et la précision structurelle. Les résultats expérimentaux révèlent que même les modèles de pointe comme GPT-4o-image sont en retard par rapport aux performances humaines, avec des problèmes courants dans la clarté texte/visuel et l'exactitude scientifique. Ces résultats soulignent la nécessité de capacités de génération visuelle plus avancées, pilotées par le raisonnement.
English
Recent years have seen rapid advances in AI-driven image generation. Early
diffusion models emphasized perceptual quality, while newer multimodal models
like GPT-4o-image integrate high-level reasoning, improving semantic
understanding and structural composition. Scientific illustration generation
exemplifies this evolution: unlike general image synthesis, it demands accurate
interpretation of technical content and transformation of abstract ideas into
clear, standardized visuals. This task is significantly more
knowledge-intensive and laborious, often requiring hours of manual work and
specialized tools. Automating it in a controllable, intelligent manner would
provide substantial practical value. Yet, no benchmark currently exists to
evaluate AI on this front. To fill this gap, we introduce SridBench, the first
benchmark for scientific figure generation. It comprises 1,120 instances
curated from leading scientific papers across 13 natural and computer science
disciplines, collected via human experts and MLLMs. Each sample is evaluated
along six dimensions, including semantic fidelity and structural accuracy.
Experimental results reveal that even top-tier models like GPT-4o-image lag
behind human performance, with common issues in text/visual clarity and
scientific correctness. These findings highlight the need for more advanced
reasoning-driven visual generation capabilities.Summary
AI-Generated Summary