ModelLens: Das beste Modell für Ihre Aufgabe aus unzähligen Modellen finden

Zusammenfassung

Das Ökosystem quelloffener Modelle umfasst mittlerweile Hunderttausende vortrainierter Modelle, doch die Auswahl des besten Modells für einen neuen Datensatz wird zunehmend unpraktikabel: Ständig tauchen neue Modelle und nicht benchmarkte Datensätze auf, sodass Praktiker auf keiner Seite auf frühere Aufzeichnungen zurückgreifen können. Bisherige Ansätze behandeln nur Fragmente dieser natürlichen Umgebung: AutoML und Transferabilitätsschätzung wählen Modelle aus kleinen vordefinierten Pools aus oder erfordern teure Vorwärtsdurchläufe pro Modell auf dem Zieldatensatz, während Modell-Routing einen gegebenen Kandidatenpool voraussetzt. Wir stellen ModelLens vor, ein einheitliches Framework für Modellempfehlungen in der Praxis. Unser zentraler Erkenntnis ist, dass öffentliche Leaderboard-Interaktionen, obwohl verstreut und verrauscht, gemeinsam einen impliziten Atlas der Modellfähigkeiten über heterogene Evaluierungsumgebungen hinweg abbilden – ein Signal, das reichhaltig genug ist, um direkt daraus zu lernen. Durch das Erlernen eines leistungsbewussten latenten Raums über Tupel von Modell, Datensatz und Metrik ordnet ModelLens unbekannte Modelle auf unbekannten Datensätzen ein, ohne die Kandidaten auf dem Zieldatensatz auszuführen. In einer neuen Benchmark mit 1,62 Millionen Evaluierungsdatensätzen, die 47.000 Modelle und 9.600 Datensätze umfasst, übertrifft ModelLens Basislinien, die entweder ausschließlich auf Metadaten angewiesen sind oder die Ausführung jedes Kandidaten auf dem Zieldatensatz erfordern. Die von ModelLens empfohlenen Top-K-Pools verbessern zudem mehrere repräsentative Routing-Methoden um bis zu 81 % über verschiedene QA-Benchmarks hinweg. Fallstudien zu kürzlich veröffentlichten Benchmarks bestätigen die Generalisierung sowohl auf Text- als auch auf Vision-Language-Aufgaben.

English

The open-source model ecosystem now contains hundreds of thousands of pretrained models, yet picking the best model for a new dataset is increasingly infeasible: new models and unbenchmarked datasets emerge continuously, leaving practitioners with no prior records on either side. Existing approaches handle only fragments of this in-the-wild setting: AutoML and transferability estimation select models from small predefined pools or require expensive per-model forward passes on the target dataset, while model routing presupposes a given candidate pool. We introduce ModelLens, a unified framework for model recommendation in the wild. Our key insight is that public leaderboard interactions, though scattered and noisy, collectively trace out an implicit atlas of model capabilities across heterogeneous evaluation settings, a signal rich enough to learn from directly. By learning a performance-aware latent space over model--dataset--metric tuples, ModelLens ranks unseen models on unseen datasets without running candidates on the target dataset. On a new benchmark of 1.62M evaluation records spanning 47K models and 9.6K datasets, ModelLens surpasses baselines that either rely on metadata alone or require running each candidate on the target dataset. Its recommended Top-K pools further improve multiple representative routing methods by up to 81% across diverse QA benchmarks. Case studies on recently released benchmarks further confirm generalization to both text and vision-language tasks.

ModelLens: Das beste Modell für Ihre Aufgabe aus unzähligen Modellen finden

ModelLens: Finding the Best for Your Task from Myriads of Models

Zusammenfassung

Support