ModelLens: Encontrar el Mejor para Tu Tarea entre una Multitud de Modelos

Resumen

El ecosistema de modelos de código abierto ahora contiene cientos de miles de modelos preentrenados, pero seleccionar el mejor modelo para un nuevo conjunto de datos es cada vez más inviable: nuevos modelos y conjuntos de datos sin evaluación surgen continuamente, dejando a los profesionales sin registros previos en ninguno de los casos. Los enfoques existentes solo abordan fragmentos de este escenario en entornos reales: el AutoML y la estimación de transferibilidad seleccionan modelos de grupos predefinidos pequeños o requieren pasadas hacia adelante costosas por modelo en el conjunto de datos objetivo, mientras que el enrutamiento de modelos presupone un grupo de candidatos dado. Presentamos ModelLens, un marco unificado para la recomendación de modelos en entornos reales. Nuestra idea clave es que las interacciones en los rankings públicos, aunque dispersas y ruidosas, trazan colectivamente un atlas implícito de las capacidades de los modelos a través de configuraciones de evaluación heterogéneas, una señal lo suficientemente rica para aprender directamente. Al aprender un espacio latente consciente del rendimiento sobre tuplas modelo-conjunto de datos-métrica, ModelLens clasifica modelos no vistos en conjuntos de datos no vistos sin ejecutar candidatos en el conjunto de datos objetivo. En un nuevo benchmark de 1.62 millones de registros de evaluación que abarcan 47K modelos y 9.6K conjuntos de datos, ModelLens supera a los métodos base que dependen únicamente de metadatos o requieren ejecutar cada candidato en el conjunto de datos objetivo. Sus grupos Top-K recomendados mejoran además múltiples métodos de enrutamiento representativos hasta en un 81% en diversos benchmarks de preguntas y respuestas. Estudios de caso en benchmarks recientemente publicados confirman además la generalización a tareas tanto de texto como de visión y lenguaje.

English

The open-source model ecosystem now contains hundreds of thousands of pretrained models, yet picking the best model for a new dataset is increasingly infeasible: new models and unbenchmarked datasets emerge continuously, leaving practitioners with no prior records on either side. Existing approaches handle only fragments of this in-the-wild setting: AutoML and transferability estimation select models from small predefined pools or require expensive per-model forward passes on the target dataset, while model routing presupposes a given candidate pool. We introduce ModelLens, a unified framework for model recommendation in the wild. Our key insight is that public leaderboard interactions, though scattered and noisy, collectively trace out an implicit atlas of model capabilities across heterogeneous evaluation settings, a signal rich enough to learn from directly. By learning a performance-aware latent space over model--dataset--metric tuples, ModelLens ranks unseen models on unseen datasets without running candidates on the target dataset. On a new benchmark of 1.62M evaluation records spanning 47K models and 9.6K datasets, ModelLens surpasses baselines that either rely on metadata alone or require running each candidate on the target dataset. Its recommended Top-K pools further improve multiple representative routing methods by up to 81% across diverse QA benchmarks. Case studies on recently released benchmarks further confirm generalization to both text and vision-language tasks.

ModelLens: Encontrar el Mejor para Tu Tarea entre una Multitud de Modelos

ModelLens: Finding the Best for Your Task from Myriads of Models

Resumen

Support