ChatPaper.aiChatPaper

SridBench: Benchmark per la Generazione di Illustrazioni nella Ricerca Scientifica tramite Modelli di Generazione di Immagini

SridBench: Benchmark of Scientific Research Illustration Drawing of Image Generation Model

May 28, 2025
Autori: Yifan Chang, Yukang Feng, Jianwen Sun, Jiaxin Ai, Chuanhao Li, S. Kevin Zhou, Kaipeng Zhang
cs.AI

Abstract

Negli ultimi anni si sono registrati rapidi progressi nella generazione di immagini basata sull'intelligenza artificiale. I primi modelli di diffusione si concentravano sulla qualità percettiva, mentre i più recenti modelli multimodali come GPT-4o-image integrano un ragionamento di alto livello, migliorando la comprensione semantica e la composizione strutturale. La generazione di illustrazioni scientifiche esemplifica questa evoluzione: a differenza della sintesi generale di immagini, richiede un'interpretazione accurata di contenuti tecnici e la trasformazione di idee astratte in visualizzazioni chiare e standardizzate. Questo compito è significativamente più intensivo in termini di conoscenza e laborioso, spesso richiedendo ore di lavoro manuale e strumenti specializzati. Automatizzarlo in modo controllabile e intelligente offrirebbe un valore pratico sostanziale. Tuttavia, attualmente non esiste un benchmark per valutare l'IA su questo fronte. Per colmare questa lacuna, introduciamo SridBench, il primo benchmark per la generazione di figure scientifiche. Esso comprende 1.120 istanze curate da articoli scientifici di rilievo in 13 discipline delle scienze naturali e informatiche, raccolte tramite esperti umani e MLLM. Ogni campione è valutato lungo sei dimensioni, tra cui fedeltà semantica e accuratezza strutturale. I risultati sperimentali rivelano che anche modelli di punta come GPT-4o-image sono inferiori alle prestazioni umane, con problemi comuni nella chiarezza testuale/visiva e nella correttezza scientifica. Questi risultati evidenziano la necessità di capacità più avanzate di generazione visiva guidata dal ragionamento.
English
Recent years have seen rapid advances in AI-driven image generation. Early diffusion models emphasized perceptual quality, while newer multimodal models like GPT-4o-image integrate high-level reasoning, improving semantic understanding and structural composition. Scientific illustration generation exemplifies this evolution: unlike general image synthesis, it demands accurate interpretation of technical content and transformation of abstract ideas into clear, standardized visuals. This task is significantly more knowledge-intensive and laborious, often requiring hours of manual work and specialized tools. Automating it in a controllable, intelligent manner would provide substantial practical value. Yet, no benchmark currently exists to evaluate AI on this front. To fill this gap, we introduce SridBench, the first benchmark for scientific figure generation. It comprises 1,120 instances curated from leading scientific papers across 13 natural and computer science disciplines, collected via human experts and MLLMs. Each sample is evaluated along six dimensions, including semantic fidelity and structural accuracy. Experimental results reveal that even top-tier models like GPT-4o-image lag behind human performance, with common issues in text/visual clarity and scientific correctness. These findings highlight the need for more advanced reasoning-driven visual generation capabilities.
PDF42May 30, 2025