Diverse Modellentdeckung durch strukturierte Tabellenentdeckung

Zusammenfassung

Modellkarten beschreiben das Modellverhalten durch eine Mischung aus Textbeschreibungen und strukturierten Artefakten, darunter Leistungs-, Konfigurations- und Datensatztabellen. Bestehende Modellsuchsysteme stützen sich vorwiegend auf semantische Ähnlichkeit über Text, was zu homogenen Ergebnismengen führen und die Erkundung von Alternativen einschränken kann. Wir argumentieren, dass die Modellsuche inhärent vergleichend ist: Nutzer wünschen Modelle, die aufgabenorientiert, aber in messbarer Weise differenziert sind. Wir stellen die Hypothese auf, dass dieses Gleichgewicht einen Abruf über komprimierte, hochwertige Evidenz erfordert – anstelle ausführlicher Beschreibungen – und dass ein Großteil dieser Evidenz in strukturierten Tabellen konzentriert ist. Wir präsentieren StructuredSemanticSearch, ein tabellengesteuertes Modellsuch-Rahmenwerk, das auf dem ModelTables-Benchmark aufbaut. StrukturiertSemanticSearch kombiniert zu einer Abfrage eine semantische Basislinie für Aufgabenausrichtung mit einer strukturbewussten Pipeline, die abfragebezogene Modellkarten-Tabellen mithilfe von Tabellenentdeckungsoperatoren wie Unionierbarkeit, Joinierbarkeit und Stichwortsuche aufspürt. Abgerufene Tabellen werden unter einem kontrollierten Top-k-Budget auf Modellkarten zurückgeführt, was einen fairen Vergleich zwischen textbasiertem und tabellenbasiertem Abruf ermöglicht. Über den Abruf hinaus passt StructuredSemanticSearch die Tabellenintegration an die Modelltabellen-Domäne durch orientierungsbewusste Integration an und erzeugt kompakte integrierte Ansichten von Tabellen aus teilweise überlappenden und manchmal transponierten Evidenztabellen. Zur Evaluierung führen wir ein nuggetbasiertes, auditierbares Protokoll ein, das kompakte Evidenzitems aus Modellkarten extrahiert, Abfragen mit bedingungs- oder absichtsspezifischen Nuggets abgleicht und die Evidenzabdeckung und -diversität über abgerufene Modellkarten-Kandidatensets misst. Dieses Protokoll bietet zudem einen skalierbaren Weg hin zu approximativer, evidenzbasierter Kennzeichnung in dynamischen Modellseen. Experimente mit 597 Modellenpfehlungsanfragen zeigen eine verbesserte Nugget-Abdeckung der strukturbewussten Pipeline gegenüber der semantischen Basislinie.

English

Model cards describe model behavior through a mixture of textual descriptions and structured artifacts, including performance, configuration, and dataset tables. Existing model search systems rely predominantly on semantic similarity over text, which can produce homogeneous result sets and limit exploration of alternatives. We argue that model search is inherently comparative: users want models that are task-aligned yet differentiated in measurable ways. We hypothesize that this balance requires retrieval over condensed, high-quality evidence rather than verbose descriptions, and much of that evidence is concentrated in structured tables. We present StructuredSemanticSearch, a table-driven model search framework built on the ModelTables benchmark. Given a query, StructuredSemanticSearch combines a semantic baseline for task alignment with a structure-aware pipeline that discovers query-related model-card tables using table discovery operators such as unionability, joinability, and keyword search. Retrieved tables are mapped back to model cards under a controlled top-k budget, enabling fair comparison between text-based and table-based retrieval. Beyond retrieval, StructuredSemanticSearch adapts table integration to the model-table domain through orientation-aware integration, producing compact integrated views of tables from partially overlapping and sometimes transposed evidence tables. For evaluation, we introduce a nugget-based, auditable protocol that extracts compact evidence items from model cards, matches queries to condition- or intent-specific nuggets, and measures evidence coverage and diversity over retrieved model-card candidate sets. This protocol also provides a scalable path toward approximate, evidence-based labeling in dynamic model lakes. Experiments on 597 model-recommendation queries show improved nugget coverage for the structure-aware pipeline than semantic baseline