Valutazione Comparativa di Raccomandazione, Classificazione e Tracciamento Basata sulla Knowledge Graph di Hugging Face
Benchmarking Recommendation, Classification, and Tracing Based on Hugging Face Knowledge Graph
May 23, 2025
Autori: Qiaosheng Chen, Kaijia Huang, Xiao Zhou, Weiqing Luo, Yuanning Cui, Gong Cheng
cs.AI
Abstract
La rapida crescita delle risorse open source per il machine learning (ML), come modelli e dataset, ha accelerato la ricerca nel campo dell'Information Retrieval (IR). Tuttavia, piattaforme esistenti come Hugging Face non utilizzano esplicitamente rappresentazioni strutturate, limitando query e analisi avanzate come il tracciamento dell'evoluzione dei modelli e la raccomandazione di dataset rilevanti. Per colmare questa lacuna, abbiamo costruito HuggingKG, il primo knowledge graph su larga scala derivato dalla comunità di Hugging Face per la gestione delle risorse di ML. Con 2,6 milioni di nodi e 6,2 milioni di relazioni, HuggingKG cattura relazioni specifiche del dominio e attributi testuali ricchi. Ciò ci ha permesso di presentare ulteriormente HuggingBench, un benchmark multi-task con tre nuove collezioni di test per attività di IR, tra cui la raccomandazione di risorse, la classificazione e il tracciamento. I nostri esperimenti rivelano caratteristiche uniche di HuggingKG e dei task derivati. Entrambe le risorse sono pubblicamente disponibili e si prevede che possano avanzare la ricerca nella condivisione e gestione delle risorse open source.
English
The rapid growth of open source machine learning (ML) resources, such as
models and datasets, has accelerated IR research. However, existing platforms
like Hugging Face do not explicitly utilize structured representations,
limiting advanced queries and analyses such as tracing model evolution and
recommending relevant datasets. To fill the gap, we construct HuggingKG, the
first large-scale knowledge graph built from the Hugging Face community for ML
resource management. With 2.6 million nodes and 6.2 million edges, HuggingKG
captures domain-specific relations and rich textual attributes. It enables us
to further present HuggingBench, a multi-task benchmark with three novel test
collections for IR tasks including resource recommendation, classification, and
tracing. Our experiments reveal unique characteristics of HuggingKG and the
derived tasks. Both resources are publicly available, expected to advance
research in open source resource sharing and management.