SridBench: Benchmark per la Generazione di Illustrazioni nella Ricerca Scientifica tramite Modelli di Generazione di Immagini
SridBench: Benchmark of Scientific Research Illustration Drawing of Image Generation Model
May 28, 2025
Autori: Yifan Chang, Yukang Feng, Jianwen Sun, Jiaxin Ai, Chuanhao Li, S. Kevin Zhou, Kaipeng Zhang
cs.AI
Abstract
Negli ultimi anni si sono registrati rapidi progressi nella generazione di immagini basata sull'intelligenza artificiale. I primi modelli di diffusione si concentravano sulla qualità percettiva, mentre i più recenti modelli multimodali come GPT-4o-image integrano un ragionamento di alto livello, migliorando la comprensione semantica e la composizione strutturale. La generazione di illustrazioni scientifiche esemplifica questa evoluzione: a differenza della sintesi generale di immagini, richiede un'interpretazione accurata di contenuti tecnici e la trasformazione di idee astratte in visualizzazioni chiare e standardizzate. Questo compito è significativamente più intensivo in termini di conoscenza e laborioso, spesso richiedendo ore di lavoro manuale e strumenti specializzati. Automatizzarlo in modo controllabile e intelligente offrirebbe un valore pratico sostanziale. Tuttavia, attualmente non esiste un benchmark per valutare l'IA su questo fronte. Per colmare questa lacuna, introduciamo SridBench, il primo benchmark per la generazione di figure scientifiche. Esso comprende 1.120 istanze curate da articoli scientifici di rilievo in 13 discipline delle scienze naturali e informatiche, raccolte tramite esperti umani e MLLM. Ogni campione è valutato lungo sei dimensioni, tra cui fedeltà semantica e accuratezza strutturale. I risultati sperimentali rivelano che anche modelli di punta come GPT-4o-image sono inferiori alle prestazioni umane, con problemi comuni nella chiarezza testuale/visiva e nella correttezza scientifica. Questi risultati evidenziano la necessità di capacità più avanzate di generazione visiva guidata dal ragionamento.
English
Recent years have seen rapid advances in AI-driven image generation. Early
diffusion models emphasized perceptual quality, while newer multimodal models
like GPT-4o-image integrate high-level reasoning, improving semantic
understanding and structural composition. Scientific illustration generation
exemplifies this evolution: unlike general image synthesis, it demands accurate
interpretation of technical content and transformation of abstract ideas into
clear, standardized visuals. This task is significantly more
knowledge-intensive and laborious, often requiring hours of manual work and
specialized tools. Automating it in a controllable, intelligent manner would
provide substantial practical value. Yet, no benchmark currently exists to
evaluate AI on this front. To fill this gap, we introduce SridBench, the first
benchmark for scientific figure generation. It comprises 1,120 instances
curated from leading scientific papers across 13 natural and computer science
disciplines, collected via human experts and MLLMs. Each sample is evaluated
along six dimensions, including semantic fidelity and structural accuracy.
Experimental results reveal that even top-tier models like GPT-4o-image lag
behind human performance, with common issues in text/visual clarity and
scientific correctness. These findings highlight the need for more advanced
reasoning-driven visual generation capabilities.