ChatPaper.aiChatPaper

ModelTables: Корпус таблиц о моделях

ModelTables: A Corpus of Tables about Models

December 18, 2025
Авторы: Zhengyuan Dong, Victor Zhong, Renée J. Miller
cs.AI

Аннотация

Мы представляем ModelTables — эталонный набор таблиц в "озерах моделей", который фиксирует структурированную семантику таблиц производительности и конфигурации, часто упускаемую при текстовом поиске. Корпус построен на основе карт моделей Hugging Face, файлов README из GitHub и ссылочных научных статей, связывая каждую таблицу с контекстом соответствующей модели и публикации. По сравнению с таблицами открытых озер данных, таблицы моделей меньше по размеру, но демонстрируют более плотные междтабличные связи, отражающие тесную взаимосвязь эволюции моделей и бенчмарков. Текущий выпуск охватывает более 60 тыс. моделей и 90 тыс. таблиц. Для оценки связанности моделей и таблиц мы формируем эталонную истину из нескольких источников, используя три взаимодополняющих сигнала: (1) ссылки цитирования статей, (2) явные ссылки в картах моделей и наследование, (3) общие наборы обучающих данных. Мы демонстрируем расширенный практический пример использования набора — поиск таблиц. Сравниваем канонические операторы поиска в озерах данных (объединяемые, соединяемые, ключевые слова) и базовые методы информационного поиска (плотный, разреженный, гибридный поиск) на данном наборе. Семантический поиск таблиц на основе объединения достигает 54,8% P@1 в целом (54,6% по цитированию, 31,3% по наследованию, 30,6% по общим наборам данных); плотный поиск на основе таблиц показывает 66,5% P@1, а гибридный поиск по метаданным — 54,1%. Данная оценка указывает на значительный потенциал для разработки более совершенных методов поиска таблиц. Публикуя ModelTables и протокол его создания, мы представляем первый крупномасштабный эталонный набор структурированных данных, описывающих ИИ-модели. Наш пример использования — обнаружение таблиц в озерах моделей — предоставляет интуитивное понимание и доказательную базу для разработки более точного семантического поиска, структурированного сравнения и принципиальной организации структурированных знаний о моделях. Исходный код, данные и другие артефакты доступны по адресу https://github.com/RJMillerLab/ModelTables.
English
We present ModelTables, a benchmark of tables in Model Lakes that captures the structured semantics of performance and configuration tables often overlooked by text only retrieval. The corpus is built from Hugging Face model cards, GitHub READMEs, and referenced papers, linking each table to its surrounding model and publication context. Compared with open data lake tables, model tables are smaller yet exhibit denser inter table relationships, reflecting tightly coupled model and benchmark evolution. The current release covers over 60K models and 90K tables. To evaluate model and table relatedness, we construct a multi source ground truth using three complementary signals: (1) paper citation links, (2) explicit model card links and inheritance, and (3) shared training datasets. We present one extensive empirical use case for the benchmark which is table search. We compare canonical Data Lake search operators (unionable, joinable, keyword) and Information Retrieval baselines (dense, sparse, hybrid retrieval) on this benchmark. Union based semantic table retrieval attains 54.8 % P@1 overall (54.6 % on citation, 31.3 % on inheritance, 30.6 % on shared dataset signals); table based dense retrieval reaches 66.5 % P@1, and metadata hybrid retrieval achieves 54.1 %. This evaluation indicates clear room for developing better table search methods. By releasing ModelTables and its creation protocol, we provide the first large scale benchmark of structured data describing AI model. Our use case of table discovery in Model Lakes, provides intuition and evidence for developing more accurate semantic retrieval, structured comparison, and principled organization of structured model knowledge. Source code, data, and other artifacts have been made available at https://github.com/RJMillerLab/ModelTables.
PDF81December 20, 2025