TabEmbed : Évaluation et apprentissage d'embeddings généralistes pour la compréhension des données tabulaires

Résumé

Les modèles de fondation ont établi des représentations unifiées pour le traitement du langage naturel, mais ce paradigme reste largement inexploré pour les données tabulaires. Les méthodes existantes présentent des limitations fondamentales : les approches basées sur les LLM ne produisent pas de vecteurs compatibles avec la récupération, tandis que les modèles d'embedding textuel échouent souvent à capturer la structure tabulaire et la sémantique numérique. Pour combler cette lacune, nous introduisons d'abord le Tabular Embedding Benchmark (TabBench), une suite complète conçue pour évaluer la capacité de compréhension tabulaire des modèles d'embedding. Nous proposons ensuite TabEmbed, le premier modèle d'embedding généraliste qui unifie la classification et la récupération tabulaires dans un espace d'embedding partagé. En reformulant diverses tâches tabulaires comme des problèmes d'appariement sémantique, TabEmbed utilise un apprentissage contrastif à grande échelle avec un minage de négatifs difficiles tenant compte des positifs pour discerner les nuances structurelles et numériques fines. Les résultats expérimentaux sur TabBench démontrent que TabEmbed surpasse significativement les modèles d'embedding textuel de l'état de l'art, établissant une nouvelle référence pour l'apprentissage de représentations tabulaires universelles. Le code et les jeux de données sont disponibles publiquement à https://github.com/qiangminjie27/TabEmbed et https://huggingface.co/datasets/qiangminjie27/TabBench.

English

Foundation models have established unified representations for natural language processing, yet this paradigm remains largely unexplored for tabular data. Existing methods face fundamental limitations: LLM-based approaches lack retrieval-compatible vector outputs, whereas text embedding models often fail to capture tabular structure and numerical semantics. To bridge this gap, we first introduce the Tabular Embedding Benchmark (TabBench), a comprehensive suite designed to evaluate the tabular understanding capability of embedding models. We then propose TabEmbed, the first generalist embedding model that unifies tabular classification and retrieval within a shared embedding space. By reformulating diverse tabular tasks as semantic matching problems, TabEmbed leverages large-scale contrastive learning with positive-aware hard negative mining to discern fine-grained structural and numerical nuances. Experimental results on TabBench demonstrate that TabEmbed significantly outperforms state-of-the-art text embedding models, establishing a new baseline for universal tabular representation learning. Code and datasets are publicly available at https://github.com/qiangminjie27/TabEmbed and https://huggingface.co/datasets/qiangminjie27/TabBench.

TabEmbed : Évaluation et apprentissage d'embeddings généralistes pour la compréhension des données tabulaires

TabEmbed: Benchmarking and Learning Generalist Embeddings for Tabular Understanding

Résumé

Support