ChatPaper.aiChatPaper

Valutazione Comparativa di Raccomandazione, Classificazione e Tracciamento Basata sulla Knowledge Graph di Hugging Face

Benchmarking Recommendation, Classification, and Tracing Based on Hugging Face Knowledge Graph

May 23, 2025
Autori: Qiaosheng Chen, Kaijia Huang, Xiao Zhou, Weiqing Luo, Yuanning Cui, Gong Cheng
cs.AI

Abstract

La rapida crescita delle risorse open source per il machine learning (ML), come modelli e dataset, ha accelerato la ricerca nel campo dell'Information Retrieval (IR). Tuttavia, piattaforme esistenti come Hugging Face non utilizzano esplicitamente rappresentazioni strutturate, limitando query e analisi avanzate come il tracciamento dell'evoluzione dei modelli e la raccomandazione di dataset rilevanti. Per colmare questa lacuna, abbiamo costruito HuggingKG, il primo knowledge graph su larga scala derivato dalla comunità di Hugging Face per la gestione delle risorse di ML. Con 2,6 milioni di nodi e 6,2 milioni di relazioni, HuggingKG cattura relazioni specifiche del dominio e attributi testuali ricchi. Ciò ci ha permesso di presentare ulteriormente HuggingBench, un benchmark multi-task con tre nuove collezioni di test per attività di IR, tra cui la raccomandazione di risorse, la classificazione e il tracciamento. I nostri esperimenti rivelano caratteristiche uniche di HuggingKG e dei task derivati. Entrambe le risorse sono pubblicamente disponibili e si prevede che possano avanzare la ricerca nella condivisione e gestione delle risorse open source.
English
The rapid growth of open source machine learning (ML) resources, such as models and datasets, has accelerated IR research. However, existing platforms like Hugging Face do not explicitly utilize structured representations, limiting advanced queries and analyses such as tracing model evolution and recommending relevant datasets. To fill the gap, we construct HuggingKG, the first large-scale knowledge graph built from the Hugging Face community for ML resource management. With 2.6 million nodes and 6.2 million edges, HuggingKG captures domain-specific relations and rich textual attributes. It enables us to further present HuggingBench, a multi-task benchmark with three novel test collections for IR tasks including resource recommendation, classification, and tracing. Our experiments reveal unique characteristics of HuggingKG and the derived tasks. Both resources are publicly available, expected to advance research in open source resource sharing and management.
PDF32May 29, 2025