ChatPaper.aiChatPaper

TabEmbed: Бенчмаркинг и обучение универсальных эмбеддингов для анализа табличных данных

TabEmbed: Benchmarking and Learning Generalist Embeddings for Tabular Understanding

May 6, 2026
Авторы: Minjie Qiang, Mingming Zhang, Xiaoyi Bao, Xing Fu, Yu Cheng, Weiqiang Wang, Zhongqing Wang, Ningtao Wang
cs.AI

Аннотация

Фундаментальные модели создали унифицированные представления для обработки естественного языка, однако эта парадигма остается в значительной степени неисследованной для табличных данных. Существующие методы сталкиваются с фундаментальными ограничениями: подходы на основе больших языковых моделей не обеспечивают векторные выходы, совместимые с поиском, в то время как модели текстовых эмбеддингов часто не способны уловить табличную структуру и числовую семантику. Чтобы устранить этот разрыв, мы сначала представляем Tabular Embedding Benchmark (TabBench) — комплексный набор тестов, предназначенный для оценки способности моделей эмбеддингов понимать табличные данные. Затем мы предлагаем TabEmbed — первую модель эмбеддингов общего назначения, которая объединяет классификацию и поиск в табличных данных в едином пространстве представлений. Преобразуя разнообразные табличные задачи в проблемы семантического сопоставления, TabEmbed использует масштабируемое контрастное обучение с методом сложных негативных примеров, учитывающих позитивные, для распознавания тонких структурных и числовых нюансов. Результаты экспериментов на TabBench демонстрируют, что TabEmbed значительно превосходит современные модели текстовых эмбеддингов, устанавливая новый базовый уровень для универсального обучения представлений табличных данных. Код и наборы данных общедоступны по адресам https://github.com/qiangminjie27/TabEmbed и https://huggingface.co/datasets/qiangminjie27/TabBench.
English
Foundation models have established unified representations for natural language processing, yet this paradigm remains largely unexplored for tabular data. Existing methods face fundamental limitations: LLM-based approaches lack retrieval-compatible vector outputs, whereas text embedding models often fail to capture tabular structure and numerical semantics. To bridge this gap, we first introduce the Tabular Embedding Benchmark (TabBench), a comprehensive suite designed to evaluate the tabular understanding capability of embedding models. We then propose TabEmbed, the first generalist embedding model that unifies tabular classification and retrieval within a shared embedding space. By reformulating diverse tabular tasks as semantic matching problems, TabEmbed leverages large-scale contrastive learning with positive-aware hard negative mining to discern fine-grained structural and numerical nuances. Experimental results on TabBench demonstrate that TabEmbed significantly outperforms state-of-the-art text embedding models, establishing a new baseline for universal tabular representation learning. Code and datasets are publicly available at https://github.com/qiangminjie27/TabEmbed and https://huggingface.co/datasets/qiangminjie27/TabBench.
PDF62May 9, 2026