DiagramBank : Un vaste ensemble de données d'exemplaires de conception de diagrammes avec métadonnées de publications pour la génération augmentée par recherche

Résumé

Les progrès récents des systèmes autonomes de « scientifique IA » ont démontré leur capacité à rédiger automatiquement des manuscrits scientifiques et des codes exécutables. Cependant, la production d'un diagramme scientifique de qualité publication (par exemple, une figure d'accroche) reste un goulot d'étranglement majeur dans le processus de génération « de bout en bout » d'articles. Par exemple, une figure d'accroche agit comme une interface visuelle stratégique et remplit un objectif différent de celui des graphiques de données dérivés. Elle exige une synthèse conceptuelle et une planification pour traduire un enchaînement logique complexe en une illustration percutante qui guide l'intuition et suscite la curiosité. Les systèmes existants de scientifique IA omettent généralement cette composante ou se rabattent sur une alternative inférieure. Pour combler cette lacune, nous présentons DiagramBank, un jeu de données à grande échelle comprenant 89 422 diagrammes schématiques extraits de publications scientifiques de haut niveau, conçu pour la recherche multimodale et la génération de figures scientifiques pilotée par des exemples. DiagramBank est développé grâce à notre pipeline de curation automatisée qui extrait les figures et les références textuelles correspondantes, et utilise un filtre basé sur CLIP pour différencier les diagrammes schématiques des graphiques standard ou des images naturelles. Chaque instance est associée à un contexte riche, allant du résumé et de la légende aux paires figure-référence, permettant une recherche d'information sous différentes granularités de requête. Nous diffusons DiagramBank dans un format prêt à l'indexation et fournissons une base de code pour la génération augmentée par recherche afin de démontrer la synthèse conditionnée par des exemples de figures d'accroche. DiagramBank est disponible publiquement à l'adresse https://huggingface.co/datasets/zhangt20/DiagramBank avec le code à l'adresse https://github.com/csml-rpi/DiagramBank.

English

Recent advances in autonomous ``AI scientist'' systems have demonstrated the ability to automatically write scientific manuscripts and codes with execution. However, producing a publication-grade scientific diagram (e.g., teaser figure) is still a major bottleneck in the ``end-to-end'' paper generation process. For example, a teaser figure acts as a strategic visual interface and serves a different purpose than derivative data plots. It demands conceptual synthesis and planning to translate complex logic workflow into a compelling graphic that guides intuition and sparks curiosity. Existing AI scientist systems usually omit this component or fall back to an inferior alternative. To bridge this gap, we present DiagramBank, a large-scale dataset consisting of 89,422 schematic diagrams curated from existing top-tier scientific publications, designed for multimodal retrieval and exemplar-driven scientific figure generation. DiagramBank is developed through our automated curation pipeline that extracts figures and corresponding in-text references, and uses a CLIP-based filter to differentiate schematic diagrams from standard plots or natural images. Each instance is paired with rich context from abstract, caption, to figure-reference pairs, enabling information retrieval under different query granularities. We release DiagramBank in a ready-to-index format and provide a retrieval-augmented generation codebase to demonstrate exemplar-conditioned synthesis of teaser figures. DiagramBank is publicly available at https://huggingface.co/datasets/zhangt20/DiagramBank with code at https://github.com/csml-rpi/DiagramBank.

DiagramBank : Un vaste ensemble de données d'exemplaires de conception de diagrammes avec métadonnées de publications pour la génération augmentée par recherche

DiagramBank: A Large-scale Dataset of Diagram Design Exemplars with Paper Metadata for Retrieval-Augmented Generation

Résumé

Support