ChatPaper.aiChatPaper

CGPT: Кластерно-управляемые частичные таблицы с контролем, генерируемым LLM, для поиска таблиц

CGPT: Cluster-Guided Partial Tables with LLM-Generated Supervision for Table Retrieval

January 22, 2026
Авторы: Tsung-Hsiang Chou, Chen-Jui Yu, Shui-Hsiang Hsu, Yao-Chung Fan
cs.AI

Аннотация

Универсальные модели эмбеддингов продемонстрировали высокую производительность при текстовом поиске, но остаются неоптимальными для поиска в таблицах, где сильно структурированное содержание приводит к семантическому сжатию и несоответствию между запросом и таблицей. Новейшие методы ретривельной аугментации на основе больших языковых моделей (LLM) смягчают эту проблему путем генерации синтетических запросов, однако они часто полагаются на эвристический выбор частей таблиц и редко используют эти синтетические запросы в качестве обучающих данных для улучшения модели эмбеддингов. Мы представляем CGPT — фреймворк для обучения, который улучшает поиск в таблицах за счет использования обучающих данных, сгенерированных LLM. CGPT строит семантически разнообразные частичные таблицы путем кластеризации табличных экземпляров с помощью K-средних и выборки из разных кластеров для расширения семантического охвата. Затем LLM генерирует синтетические запросы для этих частичных таблиц, которые используются в контрастном обучении с жесткими негативными примерами для доработки модели эмбеддингов. Эксперименты на четырех публичных бенчмарках (MimoTable, OTTQA, FetaQA и E2E-WTQ) показывают, что CGPT стабильно превосходит базовые методы поиска, включая QGpT, со средним улучшением R@1 на 16,54%. В условиях единого мультидоменного корпуса CGPT дополнительно демонстрирует сильную кросс-доменную обобщающую способность и остается эффективным даже при использовании меньших LLM для генерации синтетических запросов. Эти результаты указывают на то, что семантически направленное построение частичных таблиц в сочетании с контрастным обучением на данных от LLM обеспечивает эффективную и масштабируемую парадигму для поиска в крупномасштабных таблицах. Наш код доступен по адресу https://github.com/yumeow0122/CGPT.
English
General-purpose embedding models have demonstrated strong performance in text retrieval but remain suboptimal for table retrieval, where highly structured content leads to semantic compression and query-table mismatch. Recent LLM-based retrieval augmentation methods mitigate this issue by generating synthetic queries, yet they often rely on heuristic partial-table selection and seldom leverage these synthetic queries as supervision to improve the embedding model. We introduce CGPT, a training framework that enhances table retrieval through LLM-generated supervision. CGPT constructs semantically diverse partial tables by clustering table instances using K-means and sampling across clusters to broaden semantic coverage. An LLM then generates synthetic queries for these partial tables, which are used in hard-negative contrastive fine-tuning to refine the embedding model. Experiments across four public benchmarks (MimoTable, OTTQA, FetaQA, and E2E-WTQ) show that CGPT consistently outperforms retrieval baselines, including QGpT, with an average R@1 improvement of 16.54 percent. In a unified multi-domain corpus setting, CGPT further demonstrates strong cross-domain generalization and remains effective even when using smaller LLMs for synthetic query generation. These results indicate that semantically guided partial-table construction, combined with contrastive training from LLM-generated supervision, provides an effective and scalable paradigm for large-scale table retrieval. Our code is available at https://github.com/yumeow0122/CGPT.
PDF101January 28, 2026