ModelLens : trouver le meilleur pour votre tâche parmi une myriade de modèles

Résumé

L'écosystème des modèles open source contient désormais des centaines de milliers de modèles pré-entraînés, mais choisir le meilleur modèle pour un nouveau jeu de données devient de plus en plus irréalisable : de nouveaux modèles et des jeux de données non benchmarkés apparaissent continuellement, laissant les praticiens sans aucun historique préalable d'un côté comme de l'autre. Les approches existantes ne traitent que des fragments de ce contexte en conditions réelles : l'AutoML et l'estimation de transférabilité sélectionnent des modèles à partir de petits pools prédéfinis ou nécessitent des passages avant coûteux par modèle sur le jeu de données cible, tandis que le routage de modèles présuppose un pool de candidats donné. Nous présentons ModelLens, un cadre unifié pour la recommandation de modèles en conditions réelles. Notre idée clé est que les interactions publiques dans les classements, bien que dispersées et bruitées, dessinent collectivement un atlas implicite des capacités des modèles à travers des contextes d'évaluation hétérogènes, un signal suffisamment riche pour en apprendre directement. En apprenant un espace latent sensible à la performance sur des tuples modèle–jeu de données–métrique, ModelLens classe des modèles inédits sur des jeux de données inédits sans exécuter les candidats sur le jeu de données cible. Sur un nouveau benchmark de 1,62 million d'enregistrements d'évaluation couvrant 47 000 modèles et 9 600 jeux de données, ModelLens dépasse les références qui s'appuient uniquement sur les métadonnées ou qui nécessitent d'exécuter chaque candidat sur le jeu de données cible. Ses pools Top-K recommandés améliorent en outre plusieurs méthodes de routage représentatives jusqu'à 81 % sur divers benchmarks de QA. Des études de cas sur des benchmarks récemment publiés confirment également la généralisation aux tâches textuelles et de langage-vision.

English

The open-source model ecosystem now contains hundreds of thousands of pretrained models, yet picking the best model for a new dataset is increasingly infeasible: new models and unbenchmarked datasets emerge continuously, leaving practitioners with no prior records on either side. Existing approaches handle only fragments of this in-the-wild setting: AutoML and transferability estimation select models from small predefined pools or require expensive per-model forward passes on the target dataset, while model routing presupposes a given candidate pool. We introduce ModelLens, a unified framework for model recommendation in the wild. Our key insight is that public leaderboard interactions, though scattered and noisy, collectively trace out an implicit atlas of model capabilities across heterogeneous evaluation settings, a signal rich enough to learn from directly. By learning a performance-aware latent space over model--dataset--metric tuples, ModelLens ranks unseen models on unseen datasets without running candidates on the target dataset. On a new benchmark of 1.62M evaluation records spanning 47K models and 9.6K datasets, ModelLens surpasses baselines that either rely on metadata alone or require running each candidate on the target dataset. Its recommended Top-K pools further improve multiple representative routing methods by up to 81% across diverse QA benchmarks. Case studies on recently released benchmarks further confirm generalization to both text and vision-language tasks.