TRL-Bench: Padronizando a Avaliação Interparadigma em Nível de Representação de Codificadores Tabulares

Resumo

Codificadores tabulares são geralmente avaliados dentro de pipelines de ponta a ponta específicos para tarefas, portanto, modelos de diferentes paradigmas de treinamento são difíceis de comparar diretamente, mesmo quando operam em sinais tabulares semelhantes. Apresentamos o TRL-Bench, um benchmark multigranular de aprendizado de representação tabular (TRL) que padroniza a avaliação em nível de representação entre paradigmas: cada codificador exporta embeddings de linhas, colunas ou tabelas por meio de seu wrapper suportado, e cabeças leves compartilhadas os sondam em três suítes: TRL-CTbench (coluna/tabela), TRL-Rbench (linha) e TRL-DLTE (Enriquecimento Composicional de Tabelas em Data Lake abrangendo todas as três granularidades). Para apoiar essa configuração padronizada, disponibilizamos ativos de benchmark curados e reformulações de tarefas, incluindo 50 tabelas do OpenML com 123 alvos verificados, 16 reescritas de vinculação de pares de linhas e um lago DLTE de 47.772 tabelas derivado de 1.379 tabelas pai. Em 20 modelos e 16 tarefas, o TRL-Bench mostra que, uma vez padronizadas as condições de downstream, a qualidade do codificador é específica da capacidade, e não capturada por um único ranking. No TRL-CTbench, codificadores de texto genéricos frequentemente lideram em tarefas com forte sinal textual superficial, enquanto especialistas tabulares vencem onde seu objetivo de pré-treinamento se alinha com a tarefa. No TRL-Rbench, predição intra-tabela e vinculação entre tabelas favorecem regimes de treinamento diferentes, com o desempenho de vinculação atômica correlacionando-se fortemente com o estágio de correspondência de linhas dos pipelines DLTE. No TRL-DLTE, os pipelines mais fortes combinam especialistas compatíveis por capacidade, em vez de reutilizar um único codificador, e a qualidade de ponta a ponta superior depende de um ajuste composicional não aditivo, e não apenas da classificação marginal por estágio. O TRL-Bench fornece um protocolo comum para medir sinal reutilizável em representações tabulares exportadas sob condições compartilhadas de downstream. Código e dados: https://github.com/LOGO-CUHKSZ/TRL-Bench

English

Tabular encoders are usually evaluated inside task-specific end-to-end pipelines, so models from different training paradigms are difficult to compare directly even when they operate on similar tabular signals. We introduce TRL-Bench, a multi-granular tabular representation learning (TRL) benchmark that standardizes cross-paradigm representation-level evaluation: each encoder exports row-, column-, or table embeddings through its supported wrapper, and shared lightweight heads probe them across three suites: TRL-CTbench (column/table), TRL-Rbench (row), and TRL-DLTE (compositional Data-Lake Table Enrichment spanning all three granularities). To support this standardized setting, we release curated benchmark assets and task reformulations, including 50 OpenML tables with 123 verified targets, 16 row-pair linkage rewrites, and a 47,772-table DLTE lake derived from 1,379 parent tables. Across 20 models and 16 tasks, TRL-Bench shows that once downstream conditions are standardized, encoder quality is capability-specific rather than captured by a single leaderboard. In TRL-CTbench, generic text encoders often lead on tasks with strong surface-text signal, while tabular specialists win where their pretraining objective aligns with the task. In TRL-Rbench, within-table prediction and cross-table linkage favor different training regimes, with atomic linkage performance correlating strongly with the row-matching stage of DLTE pipelines. In TRL-DLTE, the strongest pipelines combine capability-matched specialists rather than reuse a single encoder, and top end-to-end quality depends on non-additive compositional fit rather than per-stage marginal rank alone. TRL-Bench provides a common protocol for measuring reusable signal in exported tabular representations under shared downstream conditions. Code and data: https://github.com/LOGO-CUHKSZ/TRL-Bench