Diverse modelontdekking via gestructureerde tabelontdekking

Samenvatting

Modelkaarten beschrijven modelgedrag via een combinatie van tekstuele beschrijvingen en gestructureerde artefacten, waaronder tabellen met prestaties, configuratie en datasets. Bestaande modelzoeksystemen vertrouwen voornamelijk op semantische gelijkenis op basis van tekst, wat kan leiden tot homogene resultatenverzamelingen en de verkenning van alternatieven beperkt. Wij stellen dat modelzoeken inherent vergelijkend is: gebruikers willen modellen die taakgericht zijn maar toch op meetbare wijze verschillen. Onze hypothese is dat deze balans vereist dat er wordt gezocht in beknopt, kwalitatief hoogstaand bewijs in plaats van uitvoerige beschrijvingen, en dat een groot deel van dat bewijs geconcentreerd is in gestructureerde tabellen. We presenteren StructuredSemanticSearch, een tabelgestuurd modelzoekraamwerk gebaseerd op de ModelTrees-benchmark. Bij een query combineert StructuredSemanticSearch een semantische basislijn voor taakafstemming met een structuurbewuste pijplijn die query-gerelateerde modelkaarttabellen ontdekt met behulp van tabelontdekkingsoperatoren zoals unionability, joinability en trefwoordzoekopdrachten. Opgehaalde tabellen worden teruggekoppeld naar modelkaarten binnen een gecontroleerd top-k-budget, waardoor een eerlijke vergelijking tussen tekstgebaseerd en tabelgebaseerd ophalen mogelijk is. Naast het ophalen past StructuredSemanticSearch tabelintegratie aan op het modeltabeldomein via oriëntatiebewuste integratie, wat leidt tot compacte geïntegreerde weergaven van tabellen uit gedeeltelijk overlappende en soms getransponeerde bewijstabellen. Voor de evaluatie introduceren we een nugget-gebaseerd, auditbaar protocol dat compacte bewijselementen uit modelkaarten haalt, queries koppelt aan conditie- of intentiespecifieke nuggets, en de bewijsdekking en diversiteit over opgehaalde modelkaartkandidatensets meet. Dit protocol biedt ook een schaalbaar pad naar benaderende, bewijsgebaseerde labeling in dynamische modelmeren. Experimenten met 597 modelaanbevelingsqueries tonen een verbeterde nuggetdekking voor de structuurbewuste pijplijn ten opzichte van de semantische basislijn.

English

Model cards describe model behavior through a mixture of textual descriptions and structured artifacts, including performance, configuration, and dataset tables. Existing model search systems rely predominantly on semantic similarity over text, which can produce homogeneous result sets and limit exploration of alternatives. We argue that model search is inherently comparative: users want models that are task-aligned yet differentiated in measurable ways. We hypothesize that this balance requires retrieval over condensed, high-quality evidence rather than verbose descriptions, and much of that evidence is concentrated in structured tables. We present StructuredSemanticSearch, a table-driven model search framework built on the ModelTables benchmark. Given a query, StructuredSemanticSearch combines a semantic baseline for task alignment with a structure-aware pipeline that discovers query-related model-card tables using table discovery operators such as unionability, joinability, and keyword search. Retrieved tables are mapped back to model cards under a controlled top-k budget, enabling fair comparison between text-based and table-based retrieval. Beyond retrieval, StructuredSemanticSearch adapts table integration to the model-table domain through orientation-aware integration, producing compact integrated views of tables from partially overlapping and sometimes transposed evidence tables. For evaluation, we introduce a nugget-based, auditable protocol that extracts compact evidence items from model cards, matches queries to condition- or intent-specific nuggets, and measures evidence coverage and diversity over retrieved model-card candidate sets. This protocol also provides a scalable path toward approximate, evidence-based labeling in dynamic model lakes. Experiments on 597 model-recommendation queries show improved nugget coverage for the structure-aware pipeline than semantic baseline