ModelLens: Поиск лучшего для вашей задачи среди множества моделей

Аннотация

Экосистема открытых моделей теперь насчитывает сотни тысяч предобученных моделей, однако выбор наилучшей модели для нового набора данных становится всё более невыполнимым: постоянно появляются новые модели и не прошедшие бенчмаркинг наборы данных, оставляя практиков без предшествующих записей ни с той, ни с другой стороны. Существующие подходы обрабатывают лишь фрагменты этого естественного сценария: AutoML и оценка переносимости выбирают модели из небольших предопределённых пулов или требуют дорогостоящих прямых проходов по каждой модели на целевом наборе данных, в то время как маршрутизация моделей предполагает заданный пул кандидатов. Мы представляем ModelLens — унифицированную среду для рекомендации моделей в естественных условиях. Наше ключевое понимание заключается в том, что взаимодействия на публичных таблицах лидеров, хотя и разрозненные и зашумлённые, в совокупности прорисовывают неявный атлас возможностей моделей в гетерогенных условиях оценки — сигнал, достаточно богатый для непосредственного обучения. Обучая учитывающее производительность латентное пространство на тройках модель–набор данных–метрика, ModelLens ранжирует невидимые модели на невидимых наборах данных, не запуская кандидатов на целевом наборе данных. На новом бенчмарке из 1,62 млн записей оценок, охватывающем 47 тыс. моделей и 9,6 тыс. наборов данных, ModelLens превосходит базовые подходы, которые либо полагаются только на метаданные, либо требуют запуска каждого кандидата на целевом наборе данных. Его рекомендуемые пулы Top-K дополнительно улучшают несколько репрезентативных методов маршрутизации на величину до 81% в различных бенчмарках вопросно-ответных задач. Тематические исследования на недавно выпущенных бенчмарках дополнительно подтверждают обобщение как на текстовые, так и на зрительно-языковые задачи.

English

The open-source model ecosystem now contains hundreds of thousands of pretrained models, yet picking the best model for a new dataset is increasingly infeasible: new models and unbenchmarked datasets emerge continuously, leaving practitioners with no prior records on either side. Existing approaches handle only fragments of this in-the-wild setting: AutoML and transferability estimation select models from small predefined pools or require expensive per-model forward passes on the target dataset, while model routing presupposes a given candidate pool. We introduce ModelLens, a unified framework for model recommendation in the wild. Our key insight is that public leaderboard interactions, though scattered and noisy, collectively trace out an implicit atlas of model capabilities across heterogeneous evaluation settings, a signal rich enough to learn from directly. By learning a performance-aware latent space over model--dataset--metric tuples, ModelLens ranks unseen models on unseen datasets without running candidates on the target dataset. On a new benchmark of 1.62M evaluation records spanning 47K models and 9.6K datasets, ModelLens surpasses baselines that either rely on metadata alone or require running each candidate on the target dataset. Its recommended Top-K pools further improve multiple representative routing methods by up to 81% across diverse QA benchmarks. Case studies on recently released benchmarks further confirm generalization to both text and vision-language tasks.

ModelLens: Поиск лучшего для вашей задачи среди множества моделей

ModelLens: Finding the Best for Your Task from Myriads of Models

Аннотация

Support