DiagramBank: Ein umfangreicher Datensatz mit Diagramm-Design-Exemplaren und Artikel-Metadaten für retrieval-augmentierte Generierung

Zusammenfassung

Jüngste Fortschritte bei autonomen „KI-Wissenschaftler“-Systemen haben die Fähigkeit demonstriert, automatisch wissenschaftliche Manuskripte und ausführbaren Code zu verfassen. Die Erstellung einer publikationsreifen wissenschaftlichen Abbildung (z. B. einer Teaser-Grafik) stellt jedoch nach wie vor einen großen Engpass im „End-to-End“-Paper-Generierungsprozess dar. Eine Teaser-Grafik fungiert beispielsweise als strategische visuelle Schnittstelle und erfüllt einen anderen Zweck als abgeleitete Datenplots. Sie erfordert konzeptionelle Synthese und Planung, um komplexe logische Arbeitsabläufe in eine überzeugende Grafik zu übersetzen, die die Intuition leitet und Neugier weckt. Bestehende KI-Wissenschaftler-Systeme lassen diese Komponente meist aus oder greifen auf eine minderwertige Alternative zurück. Um diese Lücke zu schließen, stellen wir DiagramBank vor, einen großen Datensatz, der 89.422 schematische Diagramme aus bestehenden Top-Wissenschaftspublikationen umfasst und für multimodale Retrieval- und exemplargesteuerte wissenschaftliche Abbildungsgenerierung konzipiert ist. DiagramBank wurde durch unsere automatisierte Kuratierungspipeline entwickelt, die Abbildungen und entsprechende Textverweise extrahiert und einen CLIP-basierten Filter verwendet, um schematische Diagramme von standardmäßigen Plots oder natürlichen Bildern zu unterscheiden. Jede Instanz ist mit umfangreichem Kontext von Abstract und Bildunterschrift bis hin zu Abbildungs-Verweis-Paaren versehen, was Informationsabruf unter verschiedenen Abfragegranularitäten ermöglicht. Wir veröffentlichen DiagramBank in einem indexierfertigen Format und stellen eine Codebasis für retrieval-erweiterte Generierung bereit, um die exemplargesteuerte Synthese von Teaser-Grafiken zu demonstrieren. DiagramBank ist öffentlich verfügbar unter https://huggingface.co/datasets/zhangt20/DiagramBank mit Code unter https://github.com/csml-rpi/DiagramBank.

English

Recent advances in autonomous ``AI scientist'' systems have demonstrated the ability to automatically write scientific manuscripts and codes with execution. However, producing a publication-grade scientific diagram (e.g., teaser figure) is still a major bottleneck in the ``end-to-end'' paper generation process. For example, a teaser figure acts as a strategic visual interface and serves a different purpose than derivative data plots. It demands conceptual synthesis and planning to translate complex logic workflow into a compelling graphic that guides intuition and sparks curiosity. Existing AI scientist systems usually omit this component or fall back to an inferior alternative. To bridge this gap, we present DiagramBank, a large-scale dataset consisting of 89,422 schematic diagrams curated from existing top-tier scientific publications, designed for multimodal retrieval and exemplar-driven scientific figure generation. DiagramBank is developed through our automated curation pipeline that extracts figures and corresponding in-text references, and uses a CLIP-based filter to differentiate schematic diagrams from standard plots or natural images. Each instance is paired with rich context from abstract, caption, to figure-reference pairs, enabling information retrieval under different query granularities. We release DiagramBank in a ready-to-index format and provide a retrieval-augmented generation codebase to demonstrate exemplar-conditioned synthesis of teaser figures. DiagramBank is publicly available at https://huggingface.co/datasets/zhangt20/DiagramBank with code at https://github.com/csml-rpi/DiagramBank.

DiagramBank: Ein umfangreicher Datensatz mit Diagramm-Design-Exemplaren und Artikel-Metadaten für retrieval-augmentierte Generierung

DiagramBank: A Large-scale Dataset of Diagram Design Exemplars with Paper Metadata for Retrieval-Augmented Generation

Zusammenfassung

Support