TabEmbed: Evaluación y Aprendizaje de Incrustaciones Generalistas para la Comprensión de Datos Tabulares

Resumen

Los modelos fundacionales han establecido representaciones unificadas para el procesamiento del lenguaje natural, sin embargo, este paradigma permanece en gran medida inexplorado para los datos tabulares. Los métodos existentes enfrentan limitaciones fundamentales: los enfoques basados en LLM carecen de salidas vectoriales compatibles con recuperación, mientras que los modelos de incrustación de texto a menudo no logran capturar la estructura tabular y la semántica numérica. Para cerrar esta brecha, primero presentamos el Benchmark de Incrustación Tabular (TabBench), un conjunto integral diseñado para evaluar la capacidad de comprensión tabular de los modelos de incrustación. Luego proponemos TabEmbed, el primer modelo de incrustación generalista que unifica la clasificación y recuperación tabulares dentro de un espacio de incrustación compartido. Al reformular diversas tareas tabulares como problemas de correspondencia semántica, TabEmbed aprovecha el aprendizaje contrastivo a gran escala con minería de negativos duros consciente de positivos para discernir matices estructurales y numéricos de grano fino. Los resultados experimentales en TabBench demuestran que TabEmbed supera significativamente a los modelos de incrustación de texto de vanguardia, estableciendo un nuevo referente para el aprendizaje de representaciones tabulares universales. El código y los conjuntos de datos están disponibles públicamente en https://github.com/qiangminjie27/TabEmbed y https://huggingface.co/datasets/qiangminjie27/TabBench.

English

Foundation models have established unified representations for natural language processing, yet this paradigm remains largely unexplored for tabular data. Existing methods face fundamental limitations: LLM-based approaches lack retrieval-compatible vector outputs, whereas text embedding models often fail to capture tabular structure and numerical semantics. To bridge this gap, we first introduce the Tabular Embedding Benchmark (TabBench), a comprehensive suite designed to evaluate the tabular understanding capability of embedding models. We then propose TabEmbed, the first generalist embedding model that unifies tabular classification and retrieval within a shared embedding space. By reformulating diverse tabular tasks as semantic matching problems, TabEmbed leverages large-scale contrastive learning with positive-aware hard negative mining to discern fine-grained structural and numerical nuances. Experimental results on TabBench demonstrate that TabEmbed significantly outperforms state-of-the-art text embedding models, establishing a new baseline for universal tabular representation learning. Code and datasets are publicly available at https://github.com/qiangminjie27/TabEmbed and https://huggingface.co/datasets/qiangminjie27/TabBench.

TabEmbed: Evaluación y Aprendizaje de Incrustaciones Generalistas para la Comprensión de Datos Tabulares

TabEmbed: Benchmarking and Learning Generalist Embeddings for Tabular Understanding

Resumen

Support