TRL-Bench: Standardisierung der paradigmenübergreifenden Repräsentationsebenen-Evaluierung von Tabellen-Encodern
TRL-Bench: Standardizing Cross-Paradigm Representation-Level Evaluation of Tabular Encoders
June 8, 2026
Autoren: Wei Pang, Xiangru Jian, Hehan Li, Zhixuan Yu, Alex Xue, Jinyang Li, Zhengyuan Dong, Xinjian Zhao, Hao Xu, Chao Zhang, Reynold Cheng, M. Tamer Özsu, Tianshu Yu
cs.AI
Zusammenfassung
Tabellarische Encoder werden üblicherweise innerhalb aufgabenspezifischer End-to-End-Pipelines evaluiert, sodass Modelle aus unterschiedlichen Trainingsparadigmen selbst dann schwer direkt vergleichbar sind, wenn sie auf ähnlichen tabellarischen Signalen operieren. Wir führen TRL-Bench ein, einen Benchmark für multi-granulares tabellarisches Repräsentationslernen (TRL), der eine standardisierte paradigmenübergreifende Evaluierung auf Repräsentationsebene ermöglicht: Jeder Encoder exportiert Zeilen-, Spalten- oder Tabellen-Embeddings über die jeweilige unterstützte Schnittstelle, und gemeinsame leichte Köpfe testen diese in drei Suiten – TRL-CTbench (Spalte/Tabelle), TRL-Rbench (Zeile) und TRL-DLTE (kompositionelle Data-Lake-Tabellenanreicherung, die alle drei Granularitätsebenen umfasst). Zur Unterstützung dieses standardisierten Settings veröffentlichen wir kuratierte Benchmark-Assets und Aufgabenumformulierungen, darunter 50 OpenML-Tabellen mit 123 verifizierten Zielvariablen, 16 Neuformulierungen von Zeilenpaarverknüpfungen und einen 47.772-Tabellen-DLTE-See, der aus 1.379 übergeordneten Tabellen abgeleitet wurde. Basierend auf 20 Modellen und 16 Aufgaben zeigt TRL-Bench, dass die Encoderqualität, sobald die nachgelagerten Bedingungen standardisiert sind, fähigkeitsspezifisch ist und nicht durch eine einzige Rangliste erfasst werden kann. In TRL-CTbench führen generische Text-Encoder häufig bei Aufgaben mit starkem Oberflächentextsignal, während tabellarische Spezialisten dort punkten, wo ihr Vorhersageziel mit der Aufgabe übereinstimmt. In TRL-Rbench begünstigen Vorhersagen innerhalb einer Tabelle und tabelleübergreifende Verknüpfungen unterschiedliche Trainingsregime, wobei die atomare Verknüpfungsleistung stark mit der Zeilenabgleichsstufe von DLTE-Pipelines korreliert. In TRL-DLTE kombinieren die stärksten Pipelines fähigkeitsangepasste Spezialisten anstatt einen einzelnen Encoder wiederzuverwenden, und die beste End-to-End-Qualität hängt von einer nicht-additiven kompositorischen Passung ab und nicht allein vom marginalen Rang pro Stufe. TRL-Bench stellt ein gemeinsames Protokoll zur Messung wiederverwendbarer Signale in exportierten tabellarischen Repräsentationen unter gemeinsamen nachgelagerten Bedingungen bereit. Code und Daten: https://github.com/LOGO-CUHKSZ/TRL-Bench
English
Tabular encoders are usually evaluated inside task-specific end-to-end pipelines, so models from different training paradigms are difficult to compare directly even when they operate on similar tabular signals. We introduce TRL-Bench, a multi-granular tabular representation learning (TRL) benchmark that standardizes cross-paradigm representation-level evaluation: each encoder exports row-, column-, or table embeddings through its supported wrapper, and shared lightweight heads probe them across three suites: TRL-CTbench (column/table), TRL-Rbench (row), and TRL-DLTE (compositional Data-Lake Table Enrichment spanning all three granularities). To support this standardized setting, we release curated benchmark assets and task reformulations, including 50 OpenML tables with 123 verified targets, 16 row-pair linkage rewrites, and a 47,772-table DLTE lake derived from 1,379 parent tables. Across 20 models and 16 tasks, TRL-Bench shows that once downstream conditions are standardized, encoder quality is capability-specific rather than captured by a single leaderboard. In TRL-CTbench, generic text encoders often lead on tasks with strong surface-text signal, while tabular specialists win where their pretraining objective aligns with the task. In TRL-Rbench, within-table prediction and cross-table linkage favor different training regimes, with atomic linkage performance correlating strongly with the row-matching stage of DLTE pipelines. In TRL-DLTE, the strongest pipelines combine capability-matched specialists rather than reuse a single encoder, and top end-to-end quality depends on non-additive compositional fit rather than per-stage marginal rank alone. TRL-Bench provides a common protocol for measuring reusable signal in exported tabular representations under shared downstream conditions. Code and data: https://github.com/LOGO-CUHKSZ/TRL-Bench