TabEmbed: Бенчмаркинг и обучение универсальных эмбеддингов для анализа табличных данных

Аннотация

Фундаментальные модели создали унифицированные представления для обработки естественного языка, однако эта парадигма остается в значительной степени неисследованной для табличных данных. Существующие методы сталкиваются с фундаментальными ограничениями: подходы на основе больших языковых моделей не обеспечивают векторные выходы, совместимые с поиском, в то время как модели текстовых эмбеддингов часто не способны уловить табличную структуру и числовую семантику. Чтобы устранить этот разрыв, мы сначала представляем Tabular Embedding Benchmark (TabBench) — комплексный набор тестов, предназначенный для оценки способности моделей эмбеддингов понимать табличные данные. Затем мы предлагаем TabEmbed — первую модель эмбеддингов общего назначения, которая объединяет классификацию и поиск в табличных данных в едином пространстве представлений. Преобразуя разнообразные табличные задачи в проблемы семантического сопоставления, TabEmbed использует масштабируемое контрастное обучение с методом сложных негативных примеров, учитывающих позитивные, для распознавания тонких структурных и числовых нюансов. Результаты экспериментов на TabBench демонстрируют, что TabEmbed значительно превосходит современные модели текстовых эмбеддингов, устанавливая новый базовый уровень для универсального обучения представлений табличных данных. Код и наборы данных общедоступны по адресам https://github.com/qiangminjie27/TabEmbed и https://huggingface.co/datasets/qiangminjie27/TabBench.

English

Foundation models have established unified representations for natural language processing, yet this paradigm remains largely unexplored for tabular data. Existing methods face fundamental limitations: LLM-based approaches lack retrieval-compatible vector outputs, whereas text embedding models often fail to capture tabular structure and numerical semantics. To bridge this gap, we first introduce the Tabular Embedding Benchmark (TabBench), a comprehensive suite designed to evaluate the tabular understanding capability of embedding models. We then propose TabEmbed, the first generalist embedding model that unifies tabular classification and retrieval within a shared embedding space. By reformulating diverse tabular tasks as semantic matching problems, TabEmbed leverages large-scale contrastive learning with positive-aware hard negative mining to discern fine-grained structural and numerical nuances. Experimental results on TabBench demonstrate that TabEmbed significantly outperforms state-of-the-art text embedding models, establishing a new baseline for universal tabular representation learning. Code and datasets are publicly available at https://github.com/qiangminjie27/TabEmbed and https://huggingface.co/datasets/qiangminjie27/TabBench.

TabEmbed: Бенчмаркинг и обучение универсальных эмбеддингов для анализа табличных данных

TabEmbed: Benchmarking and Learning Generalist Embeddings for Tabular Understanding

Аннотация

Support