ChatPaper.aiChatPaper

TRL-Bench: Padronizando a Avaliação Interparadigma em Nível de Representação de Codificadores Tabulares

TRL-Bench: Standardizing Cross-Paradigm Representation-Level Evaluation of Tabular Encoders

June 8, 2026
Autores: Wei Pang, Xiangru Jian, Hehan Li, Zhixuan Yu, Alex Xue, Jinyang Li, Zhengyuan Dong, Xinjian Zhao, Hao Xu, Chao Zhang, Reynold Cheng, M. Tamer Özsu, Tianshu Yu
cs.AI

Resumo

Codificadores tabulares são geralmente avaliados dentro de pipelines de ponta a ponta específicos para tarefas, portanto, modelos de diferentes paradigmas de treinamento são difíceis de comparar diretamente, mesmo quando operam em sinais tabulares semelhantes. Apresentamos o TRL-Bench, um benchmark multigranular de aprendizado de representação tabular (TRL) que padroniza a avaliação em nível de representação entre paradigmas: cada codificador exporta embeddings de linhas, colunas ou tabelas por meio de seu wrapper suportado, e cabeças leves compartilhadas os sondam em três suítes: TRL-CTbench (coluna/tabela), TRL-Rbench (linha) e TRL-DLTE (Enriquecimento Composicional de Tabelas em Data Lake abrangendo todas as três granularidades). Para apoiar essa configuração padronizada, disponibilizamos ativos de benchmark curados e reformulações de tarefas, incluindo 50 tabelas do OpenML com 123 alvos verificados, 16 reescritas de vinculação de pares de linhas e um lago DLTE de 47.772 tabelas derivado de 1.379 tabelas pai. Em 20 modelos e 16 tarefas, o TRL-Bench mostra que, uma vez padronizadas as condições de downstream, a qualidade do codificador é específica da capacidade, e não capturada por um único ranking. No TRL-CTbench, codificadores de texto genéricos frequentemente lideram em tarefas com forte sinal textual superficial, enquanto especialistas tabulares vencem onde seu objetivo de pré-treinamento se alinha com a tarefa. No TRL-Rbench, predição intra-tabela e vinculação entre tabelas favorecem regimes de treinamento diferentes, com o desempenho de vinculação atômica correlacionando-se fortemente com o estágio de correspondência de linhas dos pipelines DLTE. No TRL-DLTE, os pipelines mais fortes combinam especialistas compatíveis por capacidade, em vez de reutilizar um único codificador, e a qualidade de ponta a ponta superior depende de um ajuste composicional não aditivo, e não apenas da classificação marginal por estágio. O TRL-Bench fornece um protocolo comum para medir sinal reutilizável em representações tabulares exportadas sob condições compartilhadas de downstream. Código e dados: https://github.com/LOGO-CUHKSZ/TRL-Bench
English
Tabular encoders are usually evaluated inside task-specific end-to-end pipelines, so models from different training paradigms are difficult to compare directly even when they operate on similar tabular signals. We introduce TRL-Bench, a multi-granular tabular representation learning (TRL) benchmark that standardizes cross-paradigm representation-level evaluation: each encoder exports row-, column-, or table embeddings through its supported wrapper, and shared lightweight heads probe them across three suites: TRL-CTbench (column/table), TRL-Rbench (row), and TRL-DLTE (compositional Data-Lake Table Enrichment spanning all three granularities). To support this standardized setting, we release curated benchmark assets and task reformulations, including 50 OpenML tables with 123 verified targets, 16 row-pair linkage rewrites, and a 47,772-table DLTE lake derived from 1,379 parent tables. Across 20 models and 16 tasks, TRL-Bench shows that once downstream conditions are standardized, encoder quality is capability-specific rather than captured by a single leaderboard. In TRL-CTbench, generic text encoders often lead on tasks with strong surface-text signal, while tabular specialists win where their pretraining objective aligns with the task. In TRL-Rbench, within-table prediction and cross-table linkage favor different training regimes, with atomic linkage performance correlating strongly with the row-matching stage of DLTE pipelines. In TRL-DLTE, the strongest pipelines combine capability-matched specialists rather than reuse a single encoder, and top end-to-end quality depends on non-additive compositional fit rather than per-stage marginal rank alone. TRL-Bench provides a common protocol for measuring reusable signal in exported tabular representations under shared downstream conditions. Code and data: https://github.com/LOGO-CUHKSZ/TRL-Bench