SridBench : Benchmark d'Illustration de Recherche Scientifique pour les Modèles de Génération d'Images

papers.abstract

Ces dernières années ont vu des avancées rapides dans la génération d'images pilotée par l'IA. Les premiers modèles de diffusion mettaient l'accent sur la qualité perceptuelle, tandis que les nouveaux modèles multimodaux comme GPT-4o-image intègrent un raisonnement de haut niveau, améliorant la compréhension sémantique et la composition structurelle. La génération d'illustrations scientifiques illustre bien cette évolution : contrairement à la synthèse d'images générales, elle exige une interprétation précise du contenu technique et la transformation d'idées abstraites en visuels clairs et standardisés. Cette tâche est nettement plus exigeante en connaissances et laborieuse, nécessitant souvent des heures de travail manuel et des outils spécialisés. L'automatiser de manière contrôlée et intelligente apporterait une valeur pratique substantielle. Pourtant, aucun benchmark n'existe actuellement pour évaluer l'IA sur ce front. Pour combler cette lacune, nous introduisons SridBench, le premier benchmark dédié à la génération de figures scientifiques. Il comprend 1 120 instances sélectionnées à partir d'articles scientifiques de premier plan dans 13 disciplines des sciences naturelles et informatiques, collectées par des experts humains et des MLLMs. Chaque échantillon est évalué selon six dimensions, incluant la fidélité sémantique et la précision structurelle. Les résultats expérimentaux révèlent que même les modèles de pointe comme GPT-4o-image sont en retard par rapport aux performances humaines, avec des problèmes courants dans la clarté texte/visuel et l'exactitude scientifique. Ces résultats soulignent la nécessité de capacités de génération visuelle plus avancées, pilotées par le raisonnement.

English

Recent years have seen rapid advances in AI-driven image generation. Early diffusion models emphasized perceptual quality, while newer multimodal models like GPT-4o-image integrate high-level reasoning, improving semantic understanding and structural composition. Scientific illustration generation exemplifies this evolution: unlike general image synthesis, it demands accurate interpretation of technical content and transformation of abstract ideas into clear, standardized visuals. This task is significantly more knowledge-intensive and laborious, often requiring hours of manual work and specialized tools. Automating it in a controllable, intelligent manner would provide substantial practical value. Yet, no benchmark currently exists to evaluate AI on this front. To fill this gap, we introduce SridBench, the first benchmark for scientific figure generation. It comprises 1,120 instances curated from leading scientific papers across 13 natural and computer science disciplines, collected via human experts and MLLMs. Each sample is evaluated along six dimensions, including semantic fidelity and structural accuracy. Experimental results reveal that even top-tier models like GPT-4o-image lag behind human performance, with common issues in text/visual clarity and scientific correctness. These findings highlight the need for more advanced reasoning-driven visual generation capabilities.

SridBench : Benchmark d'Illustration de Recherche Scientifique pour les Modèles de Génération d'Images

SridBench: Benchmark of Scientific Research Illustration Drawing of Image Generation Model

papers.abstract

Support