TabEmbed: Benchmarking und Erlernen generalistischer Einbettungen für das tabellarische Verständnis

Zusammenfassung

Foundation Models haben einheitliche Repräsentationen für die natürliche Sprachverarbeitung etabliert, doch dieses Paradigma ist für tabellarische Daten weitgehend unerforscht. Bestehende Methoden stoßen auf grundlegende Limitationen: LLM-basierte Ansätze erzeugen keine abfragekompatiblen Vektorausgaben, während Text-Embedding-Modelle häufig die tabellarische Struktur und numerische Semantik nicht erfassen. Um diese Lücke zu schließen, führen wir zunächst den Tabular Embedding Benchmark (TabBench) ein, eine umfassende Testsuite zur Bewertung des Tabellenverständnisses von Embedding-Modellen. Anschließend präsentieren wir TabEmbed, das erste generalistische Embedding-Modell, das tabellarische Klassifikation und Retrieval in einem gemeinsamen Embedding-Raum vereint. Durch die Reformulierung verschiedener Tabellenaufgaben als semantische Matching-Probleme nutzt TabEmbed kontrastives Lernen mit Large-Scale-Daten und Positive-Aware-Hard-Negative-Mining, um feinkörnige strukturelle und numerische Nuancen zu erkennen. Experimentelle Ergebnisse auf TabBench zeigen, dass TabEmbed state-of-the-art Text-Embedding-Modelle signifikant übertrifft und damit eine neue Baseline für universelles Tabellenrepräsentationslernen setzt. Code und Datensätze sind öffentlich verfügbar unter https://github.com/qiangminjie27/TabEmbed und https://huggingface.co/datasets/qiangminjie27/TabBench.

English

Foundation models have established unified representations for natural language processing, yet this paradigm remains largely unexplored for tabular data. Existing methods face fundamental limitations: LLM-based approaches lack retrieval-compatible vector outputs, whereas text embedding models often fail to capture tabular structure and numerical semantics. To bridge this gap, we first introduce the Tabular Embedding Benchmark (TabBench), a comprehensive suite designed to evaluate the tabular understanding capability of embedding models. We then propose TabEmbed, the first generalist embedding model that unifies tabular classification and retrieval within a shared embedding space. By reformulating diverse tabular tasks as semantic matching problems, TabEmbed leverages large-scale contrastive learning with positive-aware hard negative mining to discern fine-grained structural and numerical nuances. Experimental results on TabBench demonstrate that TabEmbed significantly outperforms state-of-the-art text embedding models, establishing a new baseline for universal tabular representation learning. Code and datasets are publicly available at https://github.com/qiangminjie27/TabEmbed and https://huggingface.co/datasets/qiangminjie27/TabBench.

TabEmbed: Benchmarking und Erlernen generalistischer Einbettungen für das tabellarische Verständnis

TabEmbed: Benchmarking and Learning Generalist Embeddings for Tabular Understanding

Zusammenfassung

Support