DiagramBank: Um Conjunto de Dados em Larga Escala de Exemplos de Design de Diagramas com Metadados de Artigos para Geração Aumentada por Recuperação
DiagramBank: A Large-scale Dataset of Diagram Design Exemplars with Paper Metadata for Retrieval-Augmented Generation
February 28, 2026
Autores: Tingwen Zhang, Ling Yue, Zhen Xu, Shaowu Pan
cs.AI
Resumo
Os recentes avanços em sistemas autónomos de "cientistas de IA" têm demonstrado a capacidade de escrever automaticamente manuscritos científicos e códigos executáveis. No entanto, a produção de um diagrama científico de nível de publicação (por exemplo, uma figura de destaque) continua a ser um grande estrangulamento no processo de geração de artigos "de ponta a ponta". Por exemplo, uma figura de destaque atua como uma interface visual estratégica e tem um propósito diferente dos gráficos de dados derivados. Ela exige uma síntese conceptual e um planeamento para traduzir um fluxo de trabalho lógico complexo numa imagem convincente que oriente a intuição e desperte a curiosidade. Os sistemas existentes de cientistas de IA geralmente omitem este componente ou recorrem a uma alternativa inferior. Para colmatar esta lacuna, apresentamos o DiagramBank, um conjunto de dados em larga escala composto por 89.422 diagramas esquemáticos selecionados de publicações científicas de topo existentes, concebido para recuperação multimodal e geração de figuras científicas baseada em exemplos. O DiagramBank é desenvolvido através do nosso pipeline de curadoria automatizada que extrai figuras e referências correspondentes no texto, e usa um filtro baseado em CLIP para diferenciar diagramas esquemáticos de gráficos padrão ou imagens naturais. Cada instância é emparelhada com um contexto rico, desde o resumo, a legenda, até pares figura-referência, permitindo a recuperação de informação sob diferentes granularidades de consulta. Disponibilizamos o DiagramBank num formato pronto para indexação e fornecemos uma base de código de geração aumentada por recuperação para demonstrar a síntese de figuras de destaque condicionada por exemplos. O DiagramBank está publicamente disponível em https://huggingface.co/datasets/zhangt20/DiagramBank com código em https://github.com/csml-rpi/DiagramBank.
English
Recent advances in autonomous ``AI scientist'' systems have demonstrated the ability to automatically write scientific manuscripts and codes with execution. However, producing a publication-grade scientific diagram (e.g., teaser figure) is still a major bottleneck in the ``end-to-end'' paper generation process. For example, a teaser figure acts as a strategic visual interface and serves a different purpose than derivative data plots. It demands conceptual synthesis and planning to translate complex logic workflow into a compelling graphic that guides intuition and sparks curiosity. Existing AI scientist systems usually omit this component or fall back to an inferior alternative. To bridge this gap, we present DiagramBank, a large-scale dataset consisting of 89,422 schematic diagrams curated from existing top-tier scientific publications, designed for multimodal retrieval and exemplar-driven scientific figure generation. DiagramBank is developed through our automated curation pipeline that extracts figures and corresponding in-text references, and uses a CLIP-based filter to differentiate schematic diagrams from standard plots or natural images. Each instance is paired with rich context from abstract, caption, to figure-reference pairs, enabling information retrieval under different query granularities. We release DiagramBank in a ready-to-index format and provide a retrieval-augmented generation codebase to demonstrate exemplar-conditioned synthesis of teaser figures. DiagramBank is publicly available at https://huggingface.co/datasets/zhangt20/DiagramBank with code at https://github.com/csml-rpi/DiagramBank.