Het in kaart brengen en navigeren door Hugging Face's Model Atlas
Charting and Navigating Hugging Face's Model Atlas
March 13, 2025
Auteurs: Eliahu Horwitz, Nitzan Kurer, Jonathan Kahana, Liel Amar, Yedid Hoshen
cs.AI
Samenvatting
Aangezien er nu miljoenen openbaar beschikbare neurale netwerken zijn, wordt het zoeken en analyseren van grote modelrepositories steeds belangrijker. Het navigeren door zoveel modellen vereist een atlas, maar aangezien de meeste modellen slecht gedocumenteerd zijn, is het in kaart brengen van zo'n atlas een uitdaging. Om het verborgen potentieel van modelrepositories te verkennen, brengen we een voorlopige atlas in kaart die het gedocumenteerde deel van Hugging Face vertegenwoordigt. Het biedt indrukwekkende visualisaties van het modellandschap en de evolutie ervan. We demonstreren verschillende toepassingen van deze atlas, waaronder het voorspellen van modelattributen (bijv. nauwkeurigheid) en het analyseren van trends in computervisiemodellen. Omdat de huidige atlas echter nog incompleet is, stellen we een methode voor om niet-gedocumenteerde regio's in kaart te brengen. Specifiek identificeren we structurele aannames met een hoge betrouwbaarheid op basis van dominante praktijken voor modeltraining in de echte wereld. Door gebruik te maken van deze aannames, maakt onze aanpak een nauwkeurige mapping mogelijk van voorheen niet-gedocumenteerde gebieden van de atlas. We maken onze datasets, code en interactieve atlas openbaar beschikbaar.
English
As there are now millions of publicly available neural networks, searching
and analyzing large model repositories becomes increasingly important.
Navigating so many models requires an atlas, but as most models are poorly
documented charting such an atlas is challenging. To explore the hidden
potential of model repositories, we chart a preliminary atlas representing the
documented fraction of Hugging Face. It provides stunning visualizations of the
model landscape and evolution. We demonstrate several applications of this
atlas including predicting model attributes (e.g., accuracy), and analyzing
trends in computer vision models. However, as the current atlas remains
incomplete, we propose a method for charting undocumented regions.
Specifically, we identify high-confidence structural priors based on dominant
real-world model training practices. Leveraging these priors, our approach
enables accurate mapping of previously undocumented areas of the atlas. We
publicly release our datasets, code, and interactive atlas.Summary
AI-Generated Summary