Découverte de modèles diversifiés via la découverte de tables structurées

Résumé

Les fiches de modèle décrivent le comportement des modèles à l’aide d’un mélange de descriptions textuelles et d’artefacts structurés, incluant des tableaux de performance, de configuration et de jeux de données. Les systèmes de recherche de modèles existants reposent principalement sur la similarité sémantique du texte, ce qui peut produire des ensembles de résultats homogènes et limiter l’exploration d’alternatives. Nous soutenons que la recherche de modèles est intrinsèquement comparative : les utilisateurs souhaitent des modèles alignés sur une tâche mais différenciés de manière mesurable. Nous émettons l’hypothèse que cet équilibre nécessite une recherche portant sur des preuves condensées et de haute qualité plutôt que sur des descriptions verbeuses, et que la majeure partie de ces preuves se concentre dans des tableaux structurés. Nous présentons StructuredSemanticSearch, un cadre de recherche de modèles piloté par les tableaux, construit sur le benchmark ModelTables. À partir d’une requête, StructuredSemanticSearch combine une base sémantique pour l’alignement des tâches avec un pipeline sensible à la structure qui découvre des tableaux de fiches de modèle liés à la requête, en utilisant des opérateurs de découverte de tableaux tels que l’unionnabilité, la joignabilité et la recherche par mots-clés. Les tableaux récupérés sont associés aux fiches de modèle selon un budget top-k contrôlé, permettant une comparaison équitable entre la recherche textuelle et la recherche par tableaux. Au-delà de la recherche, StructuredSemanticSearch adapte l’intégration des tableaux au domaine des fiches de modèle grâce à une intégration sensible à l’orientation, produisant des vues intégrées compactes à partir de tableaux de preuves partiellement superposés et parfois transposés. Pour l’évaluation, nous introduisons un protocole vérifiable basé sur les pépites (nuggets), qui extrait des éléments de preuve compacts des fiches de modèle, associe les requêtes à des pépites spécifiques à une condition ou à une intention, et mesure la couverture et la diversité des preuves parmi les ensembles candidats de fiches de modèle récupérées. Ce protocole offre également une voie évolutive vers un étiquetage approximatif fondé sur des preuves dans des lacs de modèles dynamiques. Des expériences menées sur 597 requêtes de recommandation de modèles montrent une amélioration de la couverture des pépites pour le pipeline sensible à la structure par rapport à la base sémantique.

English

Model cards describe model behavior through a mixture of textual descriptions and structured artifacts, including performance, configuration, and dataset tables. Existing model search systems rely predominantly on semantic similarity over text, which can produce homogeneous result sets and limit exploration of alternatives. We argue that model search is inherently comparative: users want models that are task-aligned yet differentiated in measurable ways. We hypothesize that this balance requires retrieval over condensed, high-quality evidence rather than verbose descriptions, and much of that evidence is concentrated in structured tables. We present StructuredSemanticSearch, a table-driven model search framework built on the ModelTables benchmark. Given a query, StructuredSemanticSearch combines a semantic baseline for task alignment with a structure-aware pipeline that discovers query-related model-card tables using table discovery operators such as unionability, joinability, and keyword search. Retrieved tables are mapped back to model cards under a controlled top-k budget, enabling fair comparison between text-based and table-based retrieval. Beyond retrieval, StructuredSemanticSearch adapts table integration to the model-table domain through orientation-aware integration, producing compact integrated views of tables from partially overlapping and sometimes transposed evidence tables. For evaluation, we introduce a nugget-based, auditable protocol that extracts compact evidence items from model cards, matches queries to condition- or intent-specific nuggets, and measures evidence coverage and diversity over retrieved model-card candidate sets. This protocol also provides a scalable path toward approximate, evidence-based labeling in dynamic model lakes. Experiments on 597 model-recommendation queries show improved nugget coverage for the structure-aware pipeline than semantic baseline