TRL-Bench: Standaardisatie van cross-paradigma evaluatie op representatieniveau voor tabulaire encoders
TRL-Bench: Standardizing Cross-Paradigm Representation-Level Evaluation of Tabular Encoders
June 8, 2026
Auteurs: Wei Pang, Xiangru Jian, Hehan Li, Zhixuan Yu, Alex Xue, Jinyang Li, Zhengyuan Dong, Xinjian Zhao, Hao Xu, Chao Zhang, Reynold Cheng, M. Tamer Özsu, Tianshu Yu
cs.AI
Samenvatting
Tabulaire encoders worden gewoonlijk geëvalueerd binnen taakspecifieke end-to-end-pijplijnen, waardoor modellen uit verschillende trainingsparadigma's moeilijk direct te vergelijken zijn, zelfs wanneer ze op vergelijkbare tabulaire signalen werken. Wij introduceren TRL-Bench, een multi-granulaire benchmark voor tabulaire representatie learning (TRL) die de evaluatie op representatieniveau over paradigma's heen standaardiseert: elke encoder exporteert rij-, kolom- of tabelembeddings via de ondersteunde wrapper, en gedeelde lichtgewicht koppen onderzoeken deze in drie suites: TRL-CTbench (kolom/tabel), TRL-Rbench (rij) en TRL-DLTE (compositionele Data-Lake Table Enrichment die alle drie granulariteiten beslaat). Om deze gestandaardiseerde setting te ondersteunen, geven we samengestelde benchmark-assets en taakherformuleringen vrij, waaronder 50 OpenML-tabellen met 123 geverifieerde doelen, 16 herschrijvingen voor rij-paarkoppeling, en een DLTE-lake van 47.772 tabellen afgeleid van 1.379 moedertabellen. Over 20 modellen en 16 taken toont TRL-Bench aan dat, zodra de downstream-condities zijn gestandaardiseerd, de encoderkwaliteit capaciteitsspecifiek is en niet wordt vastgelegd door een enkele ranglijst. In TRL-CTbench presteren generieke tekst-encoders vaak het best op taken met een sterk oppervlakte-tekstsignaal, terwijl tabulaire specialisten winnen waar hun pretrainingdoelstelling overeenkomt met de taak. In TRL-Rbench bevoordelen voorspellingen binnen dezelfde tabel en koppelingen tussen tabellen verschillende trainingsregimes, waarbij de prestatie van atomaire koppeling sterk correleert met de rij-matchingsfase van DLTE-pijplijnen. In TRL-DLTE combineren de sterkste pijplijnen capaciteit-gematchte specialisten in plaats van één enkele encoder te hergebruiken, en hangt de hoogste end-to-end kwaliteit af van niet-additieve compositionele fit, niet alleen van marginale rang per fase. TRL-Bench biedt een gemeenschappelijk protocol voor het meten van herbruikbaar signaal in geëxporteerde tabulaire representaties onder gedeelde downstream-condities. Code en data: https://github.com/LOGO-CUHKSZ/TRL-Bench
English
Tabular encoders are usually evaluated inside task-specific end-to-end pipelines, so models from different training paradigms are difficult to compare directly even when they operate on similar tabular signals. We introduce TRL-Bench, a multi-granular tabular representation learning (TRL) benchmark that standardizes cross-paradigm representation-level evaluation: each encoder exports row-, column-, or table embeddings through its supported wrapper, and shared lightweight heads probe them across three suites: TRL-CTbench (column/table), TRL-Rbench (row), and TRL-DLTE (compositional Data-Lake Table Enrichment spanning all three granularities). To support this standardized setting, we release curated benchmark assets and task reformulations, including 50 OpenML tables with 123 verified targets, 16 row-pair linkage rewrites, and a 47,772-table DLTE lake derived from 1,379 parent tables. Across 20 models and 16 tasks, TRL-Bench shows that once downstream conditions are standardized, encoder quality is capability-specific rather than captured by a single leaderboard. In TRL-CTbench, generic text encoders often lead on tasks with strong surface-text signal, while tabular specialists win where their pretraining objective aligns with the task. In TRL-Rbench, within-table prediction and cross-table linkage favor different training regimes, with atomic linkage performance correlating strongly with the row-matching stage of DLTE pipelines. In TRL-DLTE, the strongest pipelines combine capability-matched specialists rather than reuse a single encoder, and top end-to-end quality depends on non-additive compositional fit rather than per-stage marginal rank alone. TRL-Bench provides a common protocol for measuring reusable signal in exported tabular representations under shared downstream conditions. Code and data: https://github.com/LOGO-CUHKSZ/TRL-Bench