DiagramBank: Een grootschalige dataset van voorbeelden van diagramontwerpen met papieren metadata voor retrieval-augmented generation

Samenvatting

Recente vooruitgang in autonome "AI-wetenschapper"-systemen heeft het vermogen aangetoond om automatisch wetenschappelijke manuscripten en uitvoerbare code te schrijven. Het produceren van een publicatiewaardig wetenschappelijk diagram (bijvoorbeeld een teaser-figuur) vormt echter nog steeds een grote bottleneck in het "end-to-end" papiergeneratieproces. Een teaser-figuur fungeert bijvoorbeeld als een strategische visuele interface en heeft een ander doel dan afgeleide dataplots. Het vereist conceptuele synthese en planning om complexe logische workflows om te zetten in een pakkende afbeelding die de intuïtie leidt en nieuwsgierigheid opwekt. Bestaande AI-wetenschappersystemen laten deze component meestal weg of nemen hun toevlucht tot een inferieur alternatief. Om deze kloof te overbruggen, presenteren we DiagramBank, een grootschalige dataset bestaande uit 89.422 schematische diagrammen, gecureerd uit bestaande wetenschappelijke publicaties van topkwaliteit, en ontworpen voor multimodale retrievals en voorbeeldgedreven generatie van wetenschappelijke figuren. DiagramBank is ontwikkeld via onze geautomatiseerde curation-pipeline die figuren en bijbehorende in-tekstverwijzingen extraheert, en een CLIP-gebaseerd filter gebruikt om schematische diagrammen te onderscheiden van standaard grafieken of natuurlijke afbeeldingen. Elk exemplaar is gekoppeld aan rijke context, van abstract en bijschrift tot figuur-referentieparen, wat informatie-retrieval onder verschillende query-granulariteiten mogelijk maakt. We publiceren DiagramBank in een klaar-voor-indexering-formaat en bieden een codebase voor retrieval-augmented generation om voorbeeld-geconditioneerde synthese van teaser-figuren te demonstreren. DiagramBank is publiekelijk beschikbaar op https://huggingface.co/datasets/zhangt20/DiagramBank met code op https://github.com/csml-rpi/DiagramBank.

English

Recent advances in autonomous ``AI scientist'' systems have demonstrated the ability to automatically write scientific manuscripts and codes with execution. However, producing a publication-grade scientific diagram (e.g., teaser figure) is still a major bottleneck in the ``end-to-end'' paper generation process. For example, a teaser figure acts as a strategic visual interface and serves a different purpose than derivative data plots. It demands conceptual synthesis and planning to translate complex logic workflow into a compelling graphic that guides intuition and sparks curiosity. Existing AI scientist systems usually omit this component or fall back to an inferior alternative. To bridge this gap, we present DiagramBank, a large-scale dataset consisting of 89,422 schematic diagrams curated from existing top-tier scientific publications, designed for multimodal retrieval and exemplar-driven scientific figure generation. DiagramBank is developed through our automated curation pipeline that extracts figures and corresponding in-text references, and uses a CLIP-based filter to differentiate schematic diagrams from standard plots or natural images. Each instance is paired with rich context from abstract, caption, to figure-reference pairs, enabling information retrieval under different query granularities. We release DiagramBank in a ready-to-index format and provide a retrieval-augmented generation codebase to demonstrate exemplar-conditioned synthesis of teaser figures. DiagramBank is publicly available at https://huggingface.co/datasets/zhangt20/DiagramBank with code at https://github.com/csml-rpi/DiagramBank.

DiagramBank: Een grootschalige dataset van voorbeelden van diagramontwerpen met papieren metadata voor retrieval-augmented generation

DiagramBank: A Large-scale Dataset of Diagram Design Exemplars with Paper Metadata for Retrieval-Augmented Generation

Samenvatting

Support