ChatPaper.aiChatPaper

CGPT: テーブル検索のためのLLM生成監督付きクラスター誘導部分テーブル

CGPT: Cluster-Guided Partial Tables with LLM-Generated Supervision for Table Retrieval

January 22, 2026
著者: Tsung-Hsiang Chou, Chen-Jui Yu, Shui-Hsiang Hsu, Yao-Chung Fan
cs.AI

要旨

汎用埋め込みモデルはテキスト検索において強力な性能を示すが、高度に構造化されたコンテンツが意味的圧縮やクエリとテーブルの不一致を引き起こすテーブル検索には最適とは言えない。最近のLLMベースの検索拡張手法は合成クエリの生成によってこの問題を緩和するが、ヒューリスティックな部分テーブル選択に依存することが多く、これらの合成クエリを埋め込みモデル改善のための教師信号として活用することは稀である。本研究では、LLM生成による教師信号を通じてテーブル検索を強化する訓練フレームワークCGPTを提案する。CGPTは、K-meansを用いたテーブルインスタンスのクラスタリングとクラスター横断的なサンプリングにより意味的多様性に富む部分テーブルを構築する。その後、LLMがこれらの部分テーブルに対して合成クエリを生成し、それらをハードネガティブ対照学習による埋め込みモデルの微調整に利用する。4つの公開ベンチマーク(MimoTable、OTTQA、FetaQA、E2E-WTQ)における実験では、CGPTがQGpTを含む検索ベースライン手法を一貫して上回り、平均R@1が16.54%向上した。統一的なマルチドメインコーパス設定では、CGPTは強力なクロスドメイン一般化性能を示し、より小型のLLMを合成クエリ生成に用いた場合でも有効性を維持した。これらの結果は、意味的に誘導された部分テーブル構築とLLM生成教師信号による対照学習の組み合わせが、大規模テーブル検索における効果的かつスケーラブルなパラダイムを提供することを示唆している。コードはhttps://github.com/yumeow0122/CGPTで公開されている。
English
General-purpose embedding models have demonstrated strong performance in text retrieval but remain suboptimal for table retrieval, where highly structured content leads to semantic compression and query-table mismatch. Recent LLM-based retrieval augmentation methods mitigate this issue by generating synthetic queries, yet they often rely on heuristic partial-table selection and seldom leverage these synthetic queries as supervision to improve the embedding model. We introduce CGPT, a training framework that enhances table retrieval through LLM-generated supervision. CGPT constructs semantically diverse partial tables by clustering table instances using K-means and sampling across clusters to broaden semantic coverage. An LLM then generates synthetic queries for these partial tables, which are used in hard-negative contrastive fine-tuning to refine the embedding model. Experiments across four public benchmarks (MimoTable, OTTQA, FetaQA, and E2E-WTQ) show that CGPT consistently outperforms retrieval baselines, including QGpT, with an average R@1 improvement of 16.54 percent. In a unified multi-domain corpus setting, CGPT further demonstrates strong cross-domain generalization and remains effective even when using smaller LLMs for synthetic query generation. These results indicate that semantically guided partial-table construction, combined with contrastive training from LLM-generated supervision, provides an effective and scalable paradigm for large-scale table retrieval. Our code is available at https://github.com/yumeow0122/CGPT.
PDF101January 28, 2026