TRL-Bench: Estandarización de la evaluación a nivel de representación entre paradigmas de codificadores tabulares

Resumen

Los codificadores tabulares suelen evaluarse dentro de tuberías (pipelines) extremo a extremo específicas de cada tarea, por lo que los modelos de diferentes paradigmas de entrenamiento son difíciles de comparar directamente incluso cuando operan sobre señales tabulares similares. Presentamos TRL-Bench, un punto de referencia (benchmark) multigranular de aprendizaje de representaciones tabulares (TRL) que estandariza la evaluación a nivel de representación entre paradigmas: cada codificador exporta embeddings de filas, columnas o tablas a través de su envoltorio (wrapper) compatible, y cabezales ligeros compartidos los exploran en tres conjuntos de pruebas: TRL-CTbench (columna/tabla), TRL-Rbench (fila) y TRL-DLTE (enriquecimiento composicional de lagos de datos tabulares que abarca las tres granularidades). Para respaldar este entorno estandarizado, publicamos activos de referencia curados y reformulaciones de tareas, incluyendo 50 tablas de OpenML con 123 objetivos verificados, 16 reformulaciones de enlaces entre pares de filas y un lago DLTE de 47,772 tablas derivado de 1,379 tablas padre. A través de 20 modelos y 16 tareas, TRL-Bench muestra que, una vez que las condiciones posteriores (downstream) están estandarizadas, la calidad del codificador es específica de la capacidad y no se captura con una única tabla de clasificación (leaderboard). En TRL-CTbench, los codificadores de texto genéricos suelen liderar en tareas con una fuerte señal de texto superficial, mientras que los especialistas tabulares ganan donde su objetivo de preentrenamiento se alinea con la tarea. En TRL-Rbench, la predicción dentro de la tabla y los enlaces entre tablas favorecen diferentes regímenes de entrenamiento, con un rendimiento de enlace atómico que se correlaciona fuertemente con la etapa de emparejamiento de filas de las tuberías DLTE. En TRL-DLTE, las tuberías más fuertes combinan especialistas con capacidades coincidentes en lugar de reutilizar un único codificador, y la calidad óptima extremo a extremo depende del ajuste compositivo no aditivo más que solo del rango marginal por etapa. TRL-Bench proporciona un protocolo común para medir la señal reutilizable en representaciones tabulares exportadas bajo condiciones posteriores compartidas. Código y datos: https://github.com/LOGO-CUHKSZ/TRL-Bench

English

Tabular encoders are usually evaluated inside task-specific end-to-end pipelines, so models from different training paradigms are difficult to compare directly even when they operate on similar tabular signals. We introduce TRL-Bench, a multi-granular tabular representation learning (TRL) benchmark that standardizes cross-paradigm representation-level evaluation: each encoder exports row-, column-, or table embeddings through its supported wrapper, and shared lightweight heads probe them across three suites: TRL-CTbench (column/table), TRL-Rbench (row), and TRL-DLTE (compositional Data-Lake Table Enrichment spanning all three granularities). To support this standardized setting, we release curated benchmark assets and task reformulations, including 50 OpenML tables with 123 verified targets, 16 row-pair linkage rewrites, and a 47,772-table DLTE lake derived from 1,379 parent tables. Across 20 models and 16 tasks, TRL-Bench shows that once downstream conditions are standardized, encoder quality is capability-specific rather than captured by a single leaderboard. In TRL-CTbench, generic text encoders often lead on tasks with strong surface-text signal, while tabular specialists win where their pretraining objective aligns with the task. In TRL-Rbench, within-table prediction and cross-table linkage favor different training regimes, with atomic linkage performance correlating strongly with the row-matching stage of DLTE pipelines. In TRL-DLTE, the strongest pipelines combine capability-matched specialists rather than reuse a single encoder, and top end-to-end quality depends on non-additive compositional fit rather than per-stage marginal rank alone. TRL-Bench provides a common protocol for measuring reusable signal in exported tabular representations under shared downstream conditions. Code and data: https://github.com/LOGO-CUHKSZ/TRL-Bench