SridBench: Бенчмарк для оценки генерации научных иллюстраций моделями создания изображений
SridBench: Benchmark of Scientific Research Illustration Drawing of Image Generation Model
May 28, 2025
Авторы: Yifan Chang, Yukang Feng, Jianwen Sun, Jiaxin Ai, Chuanhao Li, S. Kevin Zhou, Kaipeng Zhang
cs.AI
Аннотация
В последние годы наблюдается стремительный прогресс в области генерации изображений с использованием искусственного интеллекта. Ранние диффузионные модели делали акцент на воспринимаемом качестве, тогда как новые мультимодальные модели, такие как GPT-4o-image, интегрируют высокоуровневое логическое мышление, улучшая семантическое понимание и структурную композицию. Генерация научных иллюстраций ярко демонстрирует эту эволюцию: в отличие от общей синтезации изображений, она требует точной интерпретации технического содержания и преобразования абстрактных идей в четкие, стандартизированные визуальные элементы. Эта задача значительно более требовательна к знаниям и трудоемка, часто требуя часов ручной работы и специализированных инструментов. Автоматизация этого процесса в контролируемом и интеллектуальном режиме имела бы существенную практическую ценность. Однако в настоящее время не существует бенчмарка для оценки ИИ в этой области. Чтобы восполнить этот пробел, мы представляем SridBench — первый бенчмарк для генерации научных иллюстраций. Он включает 1120 примеров, отобранных из ведущих научных статей по 13 дисциплинам естественных и компьютерных наук, собранных с участием экспертов и мультимодальных языковых моделей. Каждый образец оценивается по шести параметрам, включая семантическую точность и структурную корректность. Экспериментальные результаты показывают, что даже передовые модели, такие как GPT-4o-image, отстают от человеческого уровня, демонстрируя типичные проблемы с ясностью текста/визуализации и научной корректностью. Эти результаты подчеркивают необходимость развития более продвинутых возможностей визуальной генерации, основанных на логическом мышлении.
English
Recent years have seen rapid advances in AI-driven image generation. Early
diffusion models emphasized perceptual quality, while newer multimodal models
like GPT-4o-image integrate high-level reasoning, improving semantic
understanding and structural composition. Scientific illustration generation
exemplifies this evolution: unlike general image synthesis, it demands accurate
interpretation of technical content and transformation of abstract ideas into
clear, standardized visuals. This task is significantly more
knowledge-intensive and laborious, often requiring hours of manual work and
specialized tools. Automating it in a controllable, intelligent manner would
provide substantial practical value. Yet, no benchmark currently exists to
evaluate AI on this front. To fill this gap, we introduce SridBench, the first
benchmark for scientific figure generation. It comprises 1,120 instances
curated from leading scientific papers across 13 natural and computer science
disciplines, collected via human experts and MLLMs. Each sample is evaluated
along six dimensions, including semantic fidelity and structural accuracy.
Experimental results reveal that even top-tier models like GPT-4o-image lag
behind human performance, with common issues in text/visual clarity and
scientific correctness. These findings highlight the need for more advanced
reasoning-driven visual generation capabilities.Summary
AI-Generated Summary