Het in kaart brengen en navigeren door Hugging Face's Model Atlas

Samenvatting

Aangezien er nu miljoenen openbaar beschikbare neurale netwerken zijn, wordt het zoeken en analyseren van grote modelrepositories steeds belangrijker. Het navigeren door zoveel modellen vereist een atlas, maar aangezien de meeste modellen slecht gedocumenteerd zijn, is het in kaart brengen van zo'n atlas een uitdaging. Om het verborgen potentieel van modelrepositories te verkennen, brengen we een voorlopige atlas in kaart die het gedocumenteerde deel van Hugging Face vertegenwoordigt. Het biedt indrukwekkende visualisaties van het modellandschap en de evolutie ervan. We demonstreren verschillende toepassingen van deze atlas, waaronder het voorspellen van modelattributen (bijv. nauwkeurigheid) en het analyseren van trends in computervisiemodellen. Omdat de huidige atlas echter nog incompleet is, stellen we een methode voor om niet-gedocumenteerde regio's in kaart te brengen. Specifiek identificeren we structurele aannames met een hoge betrouwbaarheid op basis van dominante praktijken voor modeltraining in de echte wereld. Door gebruik te maken van deze aannames, maakt onze aanpak een nauwkeurige mapping mogelijk van voorheen niet-gedocumenteerde gebieden van de atlas. We maken onze datasets, code en interactieve atlas openbaar beschikbaar.

English

As there are now millions of publicly available neural networks, searching and analyzing large model repositories becomes increasingly important. Navigating so many models requires an atlas, but as most models are poorly documented charting such an atlas is challenging. To explore the hidden potential of model repositories, we chart a preliminary atlas representing the documented fraction of Hugging Face. It provides stunning visualizations of the model landscape and evolution. We demonstrate several applications of this atlas including predicting model attributes (e.g., accuracy), and analyzing trends in computer vision models. However, as the current atlas remains incomplete, we propose a method for charting undocumented regions. Specifically, we identify high-confidence structural priors based on dominant real-world model training practices. Leveraging these priors, our approach enables accurate mapping of previously undocumented areas of the atlas. We publicly release our datasets, code, and interactive atlas.

Het in kaart brengen en navigeren door Hugging Face's Model Atlas

Charting and Navigating Hugging Face's Model Atlas

Samenvatting

Support