TRL-Bench: Standaardisatie van cross-paradigma evaluatie op representatieniveau voor tabulaire encoders

Samenvatting

Tabulaire encoders worden gewoonlijk geëvalueerd binnen taakspecifieke end-to-end-pijplijnen, waardoor modellen uit verschillende trainingsparadigma's moeilijk direct te vergelijken zijn, zelfs wanneer ze op vergelijkbare tabulaire signalen werken. Wij introduceren TRL-Bench, een multi-granulaire benchmark voor tabulaire representatie learning (TRL) die de evaluatie op representatieniveau over paradigma's heen standaardiseert: elke encoder exporteert rij-, kolom- of tabelembeddings via de ondersteunde wrapper, en gedeelde lichtgewicht koppen onderzoeken deze in drie suites: TRL-CTbench (kolom/tabel), TRL-Rbench (rij) en TRL-DLTE (compositionele Data-Lake Table Enrichment die alle drie granulariteiten beslaat). Om deze gestandaardiseerde setting te ondersteunen, geven we samengestelde benchmark-assets en taakherformuleringen vrij, waaronder 50 OpenML-tabellen met 123 geverifieerde doelen, 16 herschrijvingen voor rij-paarkoppeling, en een DLTE-lake van 47.772 tabellen afgeleid van 1.379 moedertabellen. Over 20 modellen en 16 taken toont TRL-Bench aan dat, zodra de downstream-condities zijn gestandaardiseerd, de encoderkwaliteit capaciteitsspecifiek is en niet wordt vastgelegd door een enkele ranglijst. In TRL-CTbench presteren generieke tekst-encoders vaak het best op taken met een sterk oppervlakte-tekstsignaal, terwijl tabulaire specialisten winnen waar hun pretrainingdoelstelling overeenkomt met de taak. In TRL-Rbench bevoordelen voorspellingen binnen dezelfde tabel en koppelingen tussen tabellen verschillende trainingsregimes, waarbij de prestatie van atomaire koppeling sterk correleert met de rij-matchingsfase van DLTE-pijplijnen. In TRL-DLTE combineren de sterkste pijplijnen capaciteit-gematchte specialisten in plaats van één enkele encoder te hergebruiken, en hangt de hoogste end-to-end kwaliteit af van niet-additieve compositionele fit, niet alleen van marginale rang per fase. TRL-Bench biedt een gemeenschappelijk protocol voor het meten van herbruikbaar signaal in geëxporteerde tabulaire representaties onder gedeelde downstream-condities. Code en data: https://github.com/LOGO-CUHKSZ/TRL-Bench

English

Tabular encoders are usually evaluated inside task-specific end-to-end pipelines, so models from different training paradigms are difficult to compare directly even when they operate on similar tabular signals. We introduce TRL-Bench, a multi-granular tabular representation learning (TRL) benchmark that standardizes cross-paradigm representation-level evaluation: each encoder exports row-, column-, or table embeddings through its supported wrapper, and shared lightweight heads probe them across three suites: TRL-CTbench (column/table), TRL-Rbench (row), and TRL-DLTE (compositional Data-Lake Table Enrichment spanning all three granularities). To support this standardized setting, we release curated benchmark assets and task reformulations, including 50 OpenML tables with 123 verified targets, 16 row-pair linkage rewrites, and a 47,772-table DLTE lake derived from 1,379 parent tables. Across 20 models and 16 tasks, TRL-Bench shows that once downstream conditions are standardized, encoder quality is capability-specific rather than captured by a single leaderboard. In TRL-CTbench, generic text encoders often lead on tasks with strong surface-text signal, while tabular specialists win where their pretraining objective aligns with the task. In TRL-Rbench, within-table prediction and cross-table linkage favor different training regimes, with atomic linkage performance correlating strongly with the row-matching stage of DLTE pipelines. In TRL-DLTE, the strongest pipelines combine capability-matched specialists rather than reuse a single encoder, and top end-to-end quality depends on non-additive compositional fit rather than per-stage marginal rank alone. TRL-Bench provides a common protocol for measuring reusable signal in exported tabular representations under shared downstream conditions. Code and data: https://github.com/LOGO-CUHKSZ/TRL-Bench