GraphNet: Un Conjunto de Datos de Grafos Computacionales a Gran Escala para la Investigación en Compiladores de Tensores

Resumen

Presentamos GraphNet, un conjunto de datos de 2.700 grafos computacionales de aprendizaje profundo del mundo real con metadatos enriquecidos, que abarca seis categorías principales de tareas en múltiples frameworks de aprendizaje profundo. Para evaluar el rendimiento de los compiladores de tensores en estas muestras, proponemos la métrica de evaluación Speedup Score S(t), que considera conjuntamente la aceleración del tiempo de ejecución y la corrección en la ejecución bajo niveles de tolerancia ajustables, ofreciendo una medida confiable de la capacidad de optimización general. Además, extendemos S(t) al Error-aware Speedup Score ES(t), que incorpora información de error y ayuda a los desarrolladores de compiladores a identificar cuellos de botella clave de rendimiento. En este informe, evaluamos los compiladores de tensores por defecto, CINN para PaddlePaddle y TorchInductor para PyTorch, en muestras de visión por computador (CV) y procesamiento del lenguaje natural (PLN) para demostrar la practicidad de GraphNet. La pipeline de construcción completa con las herramientas de extracción de grafos y evaluación de compiladores está disponible en https://github.com/PaddlePaddle/GraphNet.

English

We introduce GraphNet, a dataset of 2.7K real-world deep learning computational graphs with rich metadata, spanning six major task categories across multiple deep learning frameworks. To evaluate tensor compiler performance on these samples, we propose the benchmark metric Speedup Score S(t), which jointly considers runtime speedup and execution correctness under tunable tolerance levels, offering a reliable measure of general optimization capability. Furthermore, we extend S(t) to the Error-aware Speedup Score ES(t), which incorporates error information and helps compiler developers identify key performance bottlenecks. In this report, we benchmark the default tensor compilers, CINN for PaddlePaddle and TorchInductor for PyTorch, on computer vision (CV) and natural language processing (NLP) samples to demonstrate the practicality of GraphNet. The full construction pipeline with graph extraction and compiler evaluation tools is available at https://github.com/PaddlePaddle/GraphNet .

GraphNet: Un Conjunto de Datos de Grafos Computacionales a Gran Escala para la Investigación en Compiladores de Tensores

GraphNet: A Large-Scale Computational Graph Dataset for Tensor Compiler Research

Resumen

Support