TRL-Bench: Standardisierung der paradigmenübergreifenden Repräsentationsebenen-Evaluierung von Tabellen-Encodern

Zusammenfassung

Tabellarische Encoder werden üblicherweise innerhalb aufgabenspezifischer End-to-End-Pipelines evaluiert, sodass Modelle aus unterschiedlichen Trainingsparadigmen selbst dann schwer direkt vergleichbar sind, wenn sie auf ähnlichen tabellarischen Signalen operieren. Wir führen TRL-Bench ein, einen Benchmark für multi-granulares tabellarisches Repräsentationslernen (TRL), der eine standardisierte paradigmenübergreifende Evaluierung auf Repräsentationsebene ermöglicht: Jeder Encoder exportiert Zeilen-, Spalten- oder Tabellen-Embeddings über die jeweilige unterstützte Schnittstelle, und gemeinsame leichte Köpfe testen diese in drei Suiten – TRL-CTbench (Spalte/Tabelle), TRL-Rbench (Zeile) und TRL-DLTE (kompositionelle Data-Lake-Tabellenanreicherung, die alle drei Granularitätsebenen umfasst). Zur Unterstützung dieses standardisierten Settings veröffentlichen wir kuratierte Benchmark-Assets und Aufgabenumformulierungen, darunter 50 OpenML-Tabellen mit 123 verifizierten Zielvariablen, 16 Neuformulierungen von Zeilenpaarverknüpfungen und einen 47.772-Tabellen-DLTE-See, der aus 1.379 übergeordneten Tabellen abgeleitet wurde. Basierend auf 20 Modellen und 16 Aufgaben zeigt TRL-Bench, dass die Encoderqualität, sobald die nachgelagerten Bedingungen standardisiert sind, fähigkeitsspezifisch ist und nicht durch eine einzige Rangliste erfasst werden kann. In TRL-CTbench führen generische Text-Encoder häufig bei Aufgaben mit starkem Oberflächentextsignal, während tabellarische Spezialisten dort punkten, wo ihr Vorhersageziel mit der Aufgabe übereinstimmt. In TRL-Rbench begünstigen Vorhersagen innerhalb einer Tabelle und tabelleübergreifende Verknüpfungen unterschiedliche Trainingsregime, wobei die atomare Verknüpfungsleistung stark mit der Zeilenabgleichsstufe von DLTE-Pipelines korreliert. In TRL-DLTE kombinieren die stärksten Pipelines fähigkeitsangepasste Spezialisten anstatt einen einzelnen Encoder wiederzuverwenden, und die beste End-to-End-Qualität hängt von einer nicht-additiven kompositorischen Passung ab und nicht allein vom marginalen Rang pro Stufe. TRL-Bench stellt ein gemeinsames Protokoll zur Messung wiederverwendbarer Signale in exportierten tabellarischen Repräsentationen unter gemeinsamen nachgelagerten Bedingungen bereit. Code und Daten: https://github.com/LOGO-CUHKSZ/TRL-Bench

English

Tabular encoders are usually evaluated inside task-specific end-to-end pipelines, so models from different training paradigms are difficult to compare directly even when they operate on similar tabular signals. We introduce TRL-Bench, a multi-granular tabular representation learning (TRL) benchmark that standardizes cross-paradigm representation-level evaluation: each encoder exports row-, column-, or table embeddings through its supported wrapper, and shared lightweight heads probe them across three suites: TRL-CTbench (column/table), TRL-Rbench (row), and TRL-DLTE (compositional Data-Lake Table Enrichment spanning all three granularities). To support this standardized setting, we release curated benchmark assets and task reformulations, including 50 OpenML tables with 123 verified targets, 16 row-pair linkage rewrites, and a 47,772-table DLTE lake derived from 1,379 parent tables. Across 20 models and 16 tasks, TRL-Bench shows that once downstream conditions are standardized, encoder quality is capability-specific rather than captured by a single leaderboard. In TRL-CTbench, generic text encoders often lead on tasks with strong surface-text signal, while tabular specialists win where their pretraining objective aligns with the task. In TRL-Rbench, within-table prediction and cross-table linkage favor different training regimes, with atomic linkage performance correlating strongly with the row-matching stage of DLTE pipelines. In TRL-DLTE, the strongest pipelines combine capability-matched specialists rather than reuse a single encoder, and top end-to-end quality depends on non-additive compositional fit rather than per-stage marginal rank alone. TRL-Bench provides a common protocol for measuring reusable signal in exported tabular representations under shared downstream conditions. Code and data: https://github.com/LOGO-CUHKSZ/TRL-Bench