Scoprire Perle Nascoste nei Repository di Modelli

Abstract

I repository pubblici ospitano milioni di modelli perfezionati (fine-tuned), eppure l'utilizzo da parte della comunità rimane sproporzionatamente concentrato su un numero ridotto di checkpoint di base (foundation). Indaghiamo se questa concentrazione rifletta una selezione efficiente del mercato o se modelli superiori vengano sistematicamente trascurati. Attraverso una valutazione estesa di oltre 2.000 modelli, dimostriamo la prevalenza di "gemme nascoste", ovvero modelli perfezionati poco popolari che superano significativamente le loro controparti più note. In modo significativo, all'interno della famiglia Llama-3.1-8B, abbiamo individuato checkpoint scaricati raramente che migliorano le prestazioni in matematica dall'83,2% al 96,0% senza aumentare i costi di inferenza. Tuttavia, scoprire questi modelli attraverso una valutazione esaustiva di ogni modello caricato è computazionalmente infattibile. Formuliamo quindi la scoperta dei modelli come un problema della Bandita Multi-Braccio (Multi-Armed Bandit) e acceleriamo l'algoritmo di ricerca Sequential Halving utilizzando insiemi di query condivisi e schemi di eliminazione aggressivi. Il nostro metodo recupera i modelli migliori con appena 50 query per candidato, accelerando la scoperta di oltre 50 volte.

English

Public repositories host millions of fine-tuned models, yet community usage remains disproportionately concentrated on a small number of foundation checkpoints. We investigate whether this concentration reflects efficient market selection or if superior models are systematically overlooked. Through an extensive evaluation of over 2,000 models, we show the prevalence of "hidden gems", unpopular fine-tunes that significantly outperform their popular counterparts. Notably, within the Llama-3.1-8B family, we find rarely downloaded checkpoints that improve math performance from 83.2% to 96.0% without increasing inference costs. However, discovering these models through exhaustive evaluation of every uploaded model is computationally infeasible. We therefore formulate model discovery as a Multi-Armed Bandit problem and accelerate the Sequential Halving search algorithm by using shared query sets and aggressive elimination schedules. Our method retrieves top models with as few as 50 queries per candidate, accelerating discovery by over 50x.

Scoprire Perle Nascoste nei Repository di Modelli

Discovering Hidden Gems in Model Repositories

Abstract

Support