ChatPaper.aiChatPaper

DiagramBank: Un conjunto de datos a gran escala de ejemplos de diseño de diagramas con metadatos de artículos para la generación aumentada por recuperación

DiagramBank: A Large-scale Dataset of Diagram Design Exemplars with Paper Metadata for Retrieval-Augmented Generation

February 28, 2026
Autores: Tingwen Zhang, Ling Yue, Zhen Xu, Shaowu Pan
cs.AI

Resumen

Los recientes avances en sistemas autónomos de "científico de IA" han demostrado la capacidad de escribir automáticamente manuscritos científicos y códigos ejecutables. Sin embargo, producir un diagrama científico de nivel de publicación (por ejemplo, una figura teaser) sigue siendo un cuello de botella principal en el proceso de generación de artículos "de extremo a extremo". Por ejemplo, una figura teaser actúa como una interfaz visual estratégica y cumple un propósito diferente al de las gráficas de datos derivadas. Requiere una síntesis conceptual y planificación para traducir un flujo de trabajo lógico complejo en un gráfico convincente que guíe la intuición y despierte la curiosidad. Los sistemas existentes de científico de IA generalmente omiten este componente o recurren a una alternativa inferior. Para cerrar esta brecha, presentamos DiagramBank, un conjunto de datos a gran escala que consta de 89,422 diagramas esquemáticos seleccionados de publicaciones científicas de primer nivel existentes, diseñado para la recuperación multimodal y la generación de figuras científicas basada en ejemplos. DiagramBank se desarrolló mediante nuestra canalización de curación automatizada que extrae figuras y las referencias correspondientes en el texto, y utiliza un filtro basado en CLIP para diferenciar diagramas esquemáticos de gráficas estándar o imágenes naturales. Cada instancia se empareja con un contexto enriquecido, desde el resumen y el pie de figura hasta los pares figura-referencia, permitiendo la recuperación de información bajo diferentes niveles de granularidad de consulta. Publicamos DiagramBank en un formato listo para indexar y proporcionamos una base de código de generación aumentada por recuperación para demostrar la síntesis de figuras teaser condicionada por ejemplos. DiagramBank está disponible públicamente en https://huggingface.co/datasets/zhangt20/DiagramBank con el código en https://github.com/csml-rpi/DiagramBank.
English
Recent advances in autonomous ``AI scientist'' systems have demonstrated the ability to automatically write scientific manuscripts and codes with execution. However, producing a publication-grade scientific diagram (e.g., teaser figure) is still a major bottleneck in the ``end-to-end'' paper generation process. For example, a teaser figure acts as a strategic visual interface and serves a different purpose than derivative data plots. It demands conceptual synthesis and planning to translate complex logic workflow into a compelling graphic that guides intuition and sparks curiosity. Existing AI scientist systems usually omit this component or fall back to an inferior alternative. To bridge this gap, we present DiagramBank, a large-scale dataset consisting of 89,422 schematic diagrams curated from existing top-tier scientific publications, designed for multimodal retrieval and exemplar-driven scientific figure generation. DiagramBank is developed through our automated curation pipeline that extracts figures and corresponding in-text references, and uses a CLIP-based filter to differentiate schematic diagrams from standard plots or natural images. Each instance is paired with rich context from abstract, caption, to figure-reference pairs, enabling information retrieval under different query granularities. We release DiagramBank in a ready-to-index format and provide a retrieval-augmented generation codebase to demonstrate exemplar-conditioned synthesis of teaser figures. DiagramBank is publicly available at https://huggingface.co/datasets/zhangt20/DiagramBank with code at https://github.com/csml-rpi/DiagramBank.
PDF11April 28, 2026