TRL-Bench : Standardisation de l'évaluation inter-paradigme au niveau des représentations des encodeurs tabulaires

Résumé

Les encodeurs tabulaires sont généralement évalués au sein de pipelines de bout en bout spécifiques à une tâche, ce qui rend difficile la comparaison directe de modèles issus de paradigmes d'apprentissage différents, même lorsqu'ils opèrent sur des signaux tabulaires similaires. Nous présentons TRL-Bench, un référentiel multi-granulaire pour l'apprentissage de représentations tabulaires (TRL) qui standardise l'évaluation au niveau des représentations entre paradigmes : chaque encodeur exporte des plongements de lignes, de colonnes ou de tableaux via son wrapper pris en charge, et des têtes légères partagées les sondent à travers trois ensembles : TRL-CTbench (colonne/tableau), TRL-Rbench (ligne) et TRL-DLTE (enrichissement compositionnel de tableaux par lac de données couvrant les trois granularités). Pour soutenir ce cadre standardisé, nous publions des actifs de référence organisés et des reformulations de tâches, notamment 50 tables OpenML avec 123 cibles vérifiées, 16 reformulations de liaisons entre paires de lignes, et un lac DLTE de 47 772 tables dérivé de 1 379 tables parentes. À travers 20 modèles et 16 tâches, TRL-Bench montre qu'une fois les conditions aval standardisées, la qualité d'un encodeur est spécifique à une capacité plutôt que capturée par un classement unique. Dans TRL-CTbench, les encodeurs textuels génériques dominent souvent les tâches avec un fort signal textuel de surface, tandis que les spécialistes tabulaires l'emportent lorsque leur objectif de pré-entraînement s'aligne avec la tâche. Dans TRL-Rbench, la prédiction intra-tableau et la liaison inter-tableaux favorisent des régimes d'entraînement différents, la performance de liaison atomique étant fortement corrélée avec l'étape d'appariement des lignes des pipelines DLTE. Dans TRL-DLTE, les pipelines les plus performants combinent des spécialistes adaptés à chaque capacité plutôt que de réutiliser un seul encodeur, et la qualité de bout en bout optimale dépend d'un ajustement compositionnel non additif plutôt que du seul rang marginal par étape. TRL-Bench fournit un protocole commun pour mesurer le signal réutilisable dans les représentations tabulaires exportées sous des conditions aval partagées. Code et données : https://github.com/LOGO-CUHKSZ/TRL-Bench

English

Tabular encoders are usually evaluated inside task-specific end-to-end pipelines, so models from different training paradigms are difficult to compare directly even when they operate on similar tabular signals. We introduce TRL-Bench, a multi-granular tabular representation learning (TRL) benchmark that standardizes cross-paradigm representation-level evaluation: each encoder exports row-, column-, or table embeddings through its supported wrapper, and shared lightweight heads probe them across three suites: TRL-CTbench (column/table), TRL-Rbench (row), and TRL-DLTE (compositional Data-Lake Table Enrichment spanning all three granularities). To support this standardized setting, we release curated benchmark assets and task reformulations, including 50 OpenML tables with 123 verified targets, 16 row-pair linkage rewrites, and a 47,772-table DLTE lake derived from 1,379 parent tables. Across 20 models and 16 tasks, TRL-Bench shows that once downstream conditions are standardized, encoder quality is capability-specific rather than captured by a single leaderboard. In TRL-CTbench, generic text encoders often lead on tasks with strong surface-text signal, while tabular specialists win where their pretraining objective aligns with the task. In TRL-Rbench, within-table prediction and cross-table linkage favor different training regimes, with atomic linkage performance correlating strongly with the row-matching stage of DLTE pipelines. In TRL-DLTE, the strongest pipelines combine capability-matched specialists rather than reuse a single encoder, and top end-to-end quality depends on non-additive compositional fit rather than per-stage marginal rank alone. TRL-Bench provides a common protocol for measuring reusable signal in exported tabular representations under shared downstream conditions. Code and data: https://github.com/LOGO-CUHKSZ/TRL-Bench