DiagramBank: Um Conjunto de Dados em Larga Escala de Exemplos de Design de Diagramas com Metadados de Artigos para Geração Aumentada por Recuperação

Resumo

Os recentes avanços em sistemas autónomos de "cientistas de IA" têm demonstrado a capacidade de escrever automaticamente manuscritos científicos e códigos executáveis. No entanto, a produção de um diagrama científico de nível de publicação (por exemplo, uma figura de destaque) continua a ser um grande estrangulamento no processo de geração de artigos "de ponta a ponta". Por exemplo, uma figura de destaque atua como uma interface visual estratégica e tem um propósito diferente dos gráficos de dados derivados. Ela exige uma síntese conceptual e um planeamento para traduzir um fluxo de trabalho lógico complexo numa imagem convincente que oriente a intuição e desperte a curiosidade. Os sistemas existentes de cientistas de IA geralmente omitem este componente ou recorrem a uma alternativa inferior. Para colmatar esta lacuna, apresentamos o DiagramBank, um conjunto de dados em larga escala composto por 89.422 diagramas esquemáticos selecionados de publicações científicas de topo existentes, concebido para recuperação multimodal e geração de figuras científicas baseada em exemplos. O DiagramBank é desenvolvido através do nosso pipeline de curadoria automatizada que extrai figuras e referências correspondentes no texto, e usa um filtro baseado em CLIP para diferenciar diagramas esquemáticos de gráficos padrão ou imagens naturais. Cada instância é emparelhada com um contexto rico, desde o resumo, a legenda, até pares figura-referência, permitindo a recuperação de informação sob diferentes granularidades de consulta. Disponibilizamos o DiagramBank num formato pronto para indexação e fornecemos uma base de código de geração aumentada por recuperação para demonstrar a síntese de figuras de destaque condicionada por exemplos. O DiagramBank está publicamente disponível em https://huggingface.co/datasets/zhangt20/DiagramBank com código em https://github.com/csml-rpi/DiagramBank.

English

Recent advances in autonomous ``AI scientist'' systems have demonstrated the ability to automatically write scientific manuscripts and codes with execution. However, producing a publication-grade scientific diagram (e.g., teaser figure) is still a major bottleneck in the ``end-to-end'' paper generation process. For example, a teaser figure acts as a strategic visual interface and serves a different purpose than derivative data plots. It demands conceptual synthesis and planning to translate complex logic workflow into a compelling graphic that guides intuition and sparks curiosity. Existing AI scientist systems usually omit this component or fall back to an inferior alternative. To bridge this gap, we present DiagramBank, a large-scale dataset consisting of 89,422 schematic diagrams curated from existing top-tier scientific publications, designed for multimodal retrieval and exemplar-driven scientific figure generation. DiagramBank is developed through our automated curation pipeline that extracts figures and corresponding in-text references, and uses a CLIP-based filter to differentiate schematic diagrams from standard plots or natural images. Each instance is paired with rich context from abstract, caption, to figure-reference pairs, enabling information retrieval under different query granularities. We release DiagramBank in a ready-to-index format and provide a retrieval-augmented generation codebase to demonstrate exemplar-conditioned synthesis of teaser figures. DiagramBank is publicly available at https://huggingface.co/datasets/zhangt20/DiagramBank with code at https://github.com/csml-rpi/DiagramBank.

DiagramBank: Um Conjunto de Dados em Larga Escala de Exemplos de Design de Diagramas com Metadados de Artigos para Geração Aumentada por Recuperação

DiagramBank: A Large-scale Dataset of Diagram Design Exemplars with Paper Metadata for Retrieval-Augmented Generation

Resumo

Support