GraphNet: Um Conjunto de Dados de Grafos Computacionais em Larga Escala para Pesquisa em Compiladores de Tensores

Resumo

Apresentamos o GraphNet, um conjunto de dados com 2,7 mil grafos computacionais de aprendizado profundo do mundo real, contendo metadados ricos e abrangendo seis categorias principais de tarefas em múltiplos frameworks de deep learning. Para avaliar o desempenho de compiladores de tensores nessas amostras, propomos a métrica de benchmark Pontuação de Aceleração S(t), que considera conjuntamente a aceleração do tempo de execução e a correção da execução sob níveis de tolerância ajustáveis, oferecendo uma medida confiável da capacidade geral de otimização. Adicionalmente, estendemos S(t) para a Pontuação de Aceleração com Consciência de Erro ES(t), que incorpora informações de erro e auxilia desenvolvedores de compiladores a identificar gargalos-chave de desempenho. Neste relatório, avaliamos os compiladores de tensores padrão, CINN para PaddlePaddle e TorchInductor para PyTorch, em amostras de visão computacional (CV) e processamento de linguagem natural (NLP) para demonstrar a praticidade do GraphNet. O pipeline completo de construção, com ferramentas de extração de grafos e avaliação de compiladores, está disponível em https://github.com/PaddlePaddle/GraphNet.

English

We introduce GraphNet, a dataset of 2.7K real-world deep learning computational graphs with rich metadata, spanning six major task categories across multiple deep learning frameworks. To evaluate tensor compiler performance on these samples, we propose the benchmark metric Speedup Score S(t), which jointly considers runtime speedup and execution correctness under tunable tolerance levels, offering a reliable measure of general optimization capability. Furthermore, we extend S(t) to the Error-aware Speedup Score ES(t), which incorporates error information and helps compiler developers identify key performance bottlenecks. In this report, we benchmark the default tensor compilers, CINN for PaddlePaddle and TorchInductor for PyTorch, on computer vision (CV) and natural language processing (NLP) samples to demonstrate the practicality of GraphNet. The full construction pipeline with graph extraction and compiler evaluation tools is available at https://github.com/PaddlePaddle/GraphNet .