DiagramBank: Крупномасштабный набор данных примеров дизайна диаграмм с метаданными статей для генерации с расширением возможностей поиска

Аннотация

Последние достижения в области автономных систем «ИИ-ученый» продемонстрировали способность автоматически писать научные рукописи и исполняемый код. Однако создание публикационно-грамотной научной диаграммы (например, тизер-иллюстрации) по-прежнему остается основным узким местом в процессе «сквозной» генерации статей. Например, тизер-иллюстрация служит стратегическим визуальным интерфейсом и выполняет иную функцию, нежели производные графики данных. Она требует концептуального синтеза и планирования для преобразования сложной логической последовательности работ в убедительную графику, которая направляет интуицию и пробуждает любопытство. Существующие системы ИИ-ученого обычно опускают этот компонент или прибегают к менее качественным альтернативам. Чтобы устранить этот пробел, мы представляем DiagramBank — масштабный набор данных, состоящий из 89 422 схематических диаграмм, отобранных из существующих публикаций ведущих научных журналов, предназначенный для мультимодального поиска и генерации научных иллюстраций на основе примеров. DiagramBank создан с помощью нашего автоматизированного конвейера обработки, который извлекает рисунки и соответствующие внутритекстовые ссылки, а также использует фильтр на основе CLIP для区分 схематических диаграмм от стандартных графиков или натуральных изображений. Каждый экземпляр снабжен богатым контекстом — от аннотации и подписи до пар «рисунок-ссылка», — что позволяет осуществлять информационный поиск при различной гранулярности запросов. Мы публикуем DiagramBank в формате, готовом к индексированию, и предоставляем код для поисково-усиленной генерации, демонстрирующий синтез тизер-иллюстраций на основе примеров. DiagramBank общедоступен по адресу https://huggingface.co/datasets/zhangt20/DiagramBank, а код — по адресу https://github.com/csml-rpi/DiagramBank.

English

Recent advances in autonomous ``AI scientist'' systems have demonstrated the ability to automatically write scientific manuscripts and codes with execution. However, producing a publication-grade scientific diagram (e.g., teaser figure) is still a major bottleneck in the ``end-to-end'' paper generation process. For example, a teaser figure acts as a strategic visual interface and serves a different purpose than derivative data plots. It demands conceptual synthesis and planning to translate complex logic workflow into a compelling graphic that guides intuition and sparks curiosity. Existing AI scientist systems usually omit this component or fall back to an inferior alternative. To bridge this gap, we present DiagramBank, a large-scale dataset consisting of 89,422 schematic diagrams curated from existing top-tier scientific publications, designed for multimodal retrieval and exemplar-driven scientific figure generation. DiagramBank is developed through our automated curation pipeline that extracts figures and corresponding in-text references, and uses a CLIP-based filter to differentiate schematic diagrams from standard plots or natural images. Each instance is paired with rich context from abstract, caption, to figure-reference pairs, enabling information retrieval under different query granularities. We release DiagramBank in a ready-to-index format and provide a retrieval-augmented generation codebase to demonstrate exemplar-conditioned synthesis of teaser figures. DiagramBank is publicly available at https://huggingface.co/datasets/zhangt20/DiagramBank with code at https://github.com/csml-rpi/DiagramBank.

DiagramBank: Крупномасштабный набор данных примеров дизайна диаграмм с метаданными статей для генерации с расширением возможностей поиска

DiagramBank: A Large-scale Dataset of Diagram Design Exemplars with Paper Metadata for Retrieval-Augmented Generation

Аннотация

Support