ModelLens: De beste voor uw taak vinden uit talloze modellen
ModelLens: Finding the Best for Your Task from Myriads of Models
May 8, 2026
Auteurs: Rui Cai, Weijie Jacky Mo, Xiaofei Wen, Qiyao Ma, Wenhui Zhu, Xiwen Chen, Muhao Chen, Zhe Zhao
cs.AI
Samenvatting
Het open-source model ecosysteem bevat nu honderdduizenden voorgeladen modellen, maar het selecteren van het beste model voor een nieuwe dataset wordt steeds onuitvoerbaarder: er komen continu nieuwe modellen en niet-geteste datasets bij, waardoor praktijkmensen aan beide kanten geen eerdere gegevens hebben. Bestaande benaderingen behandelen slechts fragmenten van deze realistische setting: AutoML en overdraagbaarheidsschatting selecteren modellen uit kleine vooraf gedefinieerde pools of vereisen dure per-model forward passes op de doeldataset, terwijl modelrouting een gegeven kandidaatpool veronderstelt. We introduceren ModelLens, een uniform raamwerk voor modelaanbevelingen in de praktijk. Ons belangrijkste inzicht is dat openbare leaderboard-interacties, hoewel verspreid en ruisig, gezamenlijk een impliciete atlas van modelcapaciteiten over heterogene evaluatiesettings uittekenen, een signaal dat rijk genoeg is om direct van te leren. Door een prestatiebewuste latente ruimte over model–dataset–metriek-triples te leren, rangschikt ModelLens ongeziene modellen op ongeziene datasets zonder kandidaten op de doeldataset uit te voeren. Op een nieuwe benchmark van 1,62M evaluatierecords verspreid over 47K modellen en 9,6K datasets overtreft ModelLens baselines die ofwel alleen op metadata vertrouwen ofwel vereisen dat elke kandidaat op de doeldataset wordt uitgevoerd. De aanbevolen Top-K-pools verbeteren meerdere representatieve routingmethoden verder met tot 81% op diverse QA-benchmarks. Casestudies van recent uitgebrachte benchmarks bevestigen verdere generalisatie naar zowel tekst- als visie-taaltaken.
English
The open-source model ecosystem now contains hundreds of thousands of pretrained models, yet picking the best model for a new dataset is increasingly infeasible: new models and unbenchmarked datasets emerge continuously, leaving practitioners with no prior records on either side. Existing approaches handle only fragments of this in-the-wild setting: AutoML and transferability estimation select models from small predefined pools or require expensive per-model forward passes on the target dataset, while model routing presupposes a given candidate pool. We introduce ModelLens, a unified framework for model recommendation in the wild. Our key insight is that public leaderboard interactions, though scattered and noisy, collectively trace out an implicit atlas of model capabilities across heterogeneous evaluation settings, a signal rich enough to learn from directly. By learning a performance-aware latent space over model--dataset--metric tuples, ModelLens ranks unseen models on unseen datasets without running candidates on the target dataset. On a new benchmark of 1.62M evaluation records spanning 47K models and 9.6K datasets, ModelLens surpasses baselines that either rely on metadata alone or require running each candidate on the target dataset. Its recommended Top-K pools further improve multiple representative routing methods by up to 81% across diverse QA benchmarks. Case studies on recently released benchmarks further confirm generalization to both text and vision-language tasks.