ModelTables: 모델 관련 표 코퍼스
ModelTables: A Corpus of Tables about Models
December 18, 2025
저자: Zhengyuan Dong, Victor Zhong, Renée J. Miller
cs.AI
초록
우리는 텍스트 기반 검색에서 종종 간과되는 성능 및 구성 테이블의 구조적 의미를 포착하는 Model Lakes 내 테이블 벤치마크인 ModelTables를 제안한다. 본 코퍼스는 Hugging Face 모델 카드, GitHub README 및 참조 논문으로부터 구축되었으며, 각 테이블을 해당 모델 및 출판 컨텍스트와 연결한다. 오픈 데이터 레이크 테이블과 비교할 때, 모델 테이블은 규모는 더 작지만 테이블 간 관계가 더 밀집되어 있어 긴밀하게 결합된 모델 및 벤치마크 진화를 반영한다. 현재 버전은 6만 개 이상의 모델과 9만 개의 테이블을 포함한다. 모델과 테이블 간 연관성을 평가하기 위해 우리는 세 가지 상호 보완적 신호를 사용한 다중 소스 실측 자료를 구성한다: (1) 논문 인용 링크, (2) 명시적 모델 카드 링크 및 상속 관계, (3) 공유 학습 데이터셋. 본 벤치마크의 하나의 포괄적인 실증적 사용 사례인 테이블 검색을 제시한다. 데이터 레이크의 정규 검색 연산자(Unionable, Joinable, 키워드)와 정보 검색 기준 방법(밀집 검색, 희소 검색, 하이브리드 검색)을 이 벤치마크에서 비교한다. Union 기반 의미론적 테이블 검색은 전체 P@1 54.8%(인용 기준 54.6%, 상속 기준 31.3%, 공유 데이터셋 신호 기준 30.6%)를 달성했으며, 테이블 기반 밀집 검색은 P@1 66.5%, 메타데이터 하이브리드 검색은 54.1%를 달성했다. 이 평가는 더 나은 테이블 검색 방법 개발을 위한 명백한 개선 여지를 시사한다. ModelTables와 해당 생성 프로토콜을 공개함으로써, 우리는 AI 모델을 설명하는 구조化 데이터의 최초 대규모 벤치마크를 제공한다. Model Lakes 내 테이블 발견에 대한 우리의 사용 사례는 구조화된 모델 지식에 대한 더 정확한 의미론적 검색, 구조化 비교 및 체계적 구축을 개발하기 위한 직관과 근거를 제공한다. 소스 코드, 데이터 및 기타 아티팩트는 https://github.com/RJMillerLab/ModelTables에서 이용 가능하다.
English
We present ModelTables, a benchmark of tables in Model Lakes that captures the structured semantics of performance and configuration tables often overlooked by text only retrieval. The corpus is built from Hugging Face model cards, GitHub READMEs, and referenced papers, linking each table to its surrounding model and publication context. Compared with open data lake tables, model tables are smaller yet exhibit denser inter table relationships, reflecting tightly coupled model and benchmark evolution. The current release covers over 60K models and 90K tables. To evaluate model and table relatedness, we construct a multi source ground truth using three complementary signals: (1) paper citation links, (2) explicit model card links and inheritance, and (3) shared training datasets. We present one extensive empirical use case for the benchmark which is table search. We compare canonical Data Lake search operators (unionable, joinable, keyword) and Information Retrieval baselines (dense, sparse, hybrid retrieval) on this benchmark. Union based semantic table retrieval attains 54.8 % P@1 overall (54.6 % on citation, 31.3 % on inheritance, 30.6 % on shared dataset signals); table based dense retrieval reaches 66.5 % P@1, and metadata hybrid retrieval achieves 54.1 %. This evaluation indicates clear room for developing better table search methods. By releasing ModelTables and its creation protocol, we provide the first large scale benchmark of structured data describing AI model. Our use case of table discovery in Model Lakes, provides intuition and evidence for developing more accurate semantic retrieval, structured comparison, and principled organization of structured model knowledge. Source code, data, and other artifacts have been made available at https://github.com/RJMillerLab/ModelTables.