ChatPaper.aiChatPaper

모델 저장소에서 숨겨진 보석 찾기

Discovering Hidden Gems in Model Repositories

January 29, 2026
저자: Jonathan Kahana, Eliahu Horwitz, Yedid Hoshen
cs.AI

초록

공개 저장소에는 수백만 개의 미세 조정 모델이 호스팅되지만, 커뮤니티 사용은 여전히 소수의 기초 체크포인트에 지나치게 집중되어 있습니다. 본 연구는 이러한 집중 현상이 효율적인 시장 선택을 반영하는지, 아니면 우수한 모델이 체계적으로 간과되고 있는지를 조사합니다. 2,000개 이상의 모델에 대한 광범위한 평가를 통해, 우리는 인기 있는 모델을 크게 능가하는 인기 없는 미세 조정 모델인 '숨겨진 보석'이 흔히 존재함을 보여줍니다. 특히 Llama-3.1-8B 모델군 내에서 추론 비용을 증가시키지 않으면서 수학 성능을 83.2%에서 96.0%로 향상시키는 드물게 다운로드되는 체크포인트를 발견했습니다. 그러나 업로드된 모든 모델을 일일이 평가하는 방식으로 이러한 모델을 발견하는 것은 계산상 불가능합니다. 따라서 우리는 모델 발견 문제를 다중 슬롯 머신 문제로 공식화하고, 공통 질의 집합 사용과 공격적인 제거 일정을 통해 순차적 반감 검색 알고리즘의 속도를 향상시킵니다. 우리의 방법은 후보 모델당 최소 50회의 질의만으로 상위 모델을 검색하며, 발견 속도를 50배 이상 가속합니다.
English
Public repositories host millions of fine-tuned models, yet community usage remains disproportionately concentrated on a small number of foundation checkpoints. We investigate whether this concentration reflects efficient market selection or if superior models are systematically overlooked. Through an extensive evaluation of over 2,000 models, we show the prevalence of "hidden gems", unpopular fine-tunes that significantly outperform their popular counterparts. Notably, within the Llama-3.1-8B family, we find rarely downloaded checkpoints that improve math performance from 83.2% to 96.0% without increasing inference costs. However, discovering these models through exhaustive evaluation of every uploaded model is computationally infeasible. We therefore formulate model discovery as a Multi-Armed Bandit problem and accelerate the Sequential Halving search algorithm by using shared query sets and aggressive elimination schedules. Our method retrieves top models with as few as 50 queries per candidate, accelerating discovery by over 50x.
PDF124January 31, 2026