CGPT: Tabelas Parciais com Orientação de Agrupamento e Supervisão Gerada por LLM para Recuperação de Tabelas

Resumo

Os modelos de incorporação de propósito geral demonstraram um desempenho robusto na recuperação de texto, mas permanecem subótimos para a recuperação de tabelas, onde o conteúdo altamente estruturado resulta em compressão semântica e incompatibilidade entre consulta e tabela. Métodos recentes de aumento de recuperação baseados em LLM mitigam essa questão gerando consultas sintéticas, porém frequentemente dependem de seleção heurística de tabelas parciais e raramente utilizam essas consultas sintéticas como supervisão para melhorar o modelo de incorporação. Apresentamos o CGPT, uma estrutura de treinamento que aprimora a recuperação de tabelas por meio de supervisão gerada por LLM. O CGPT constrói tabelas parciais semanticamente diversas agrupando instâncias de tabelas usando K-means e amostrando entre clusters para ampliar a cobertura semântica. Um LLM gera então consultas sintéticas para essas tabelas parciais, que são utilizadas em um ajuste contrastivo com negativos difíceis para refinar o modelo de incorporação. Experimentos em quatro benchmarks públicos (MimoTable, OTTQA, FetaQA e E2E-WTQ) mostram que o CGPT supera consistentemente as linhas de base de recuperação, incluindo QGpT, com uma melhoria média de 16,54% no R@1. Em um cenário unificado de corpus multidisciplinar, o CGPT demonstra ainda uma forte generalização entre domínios e mantém sua eficácia mesmo quando utiliza LLMs menores para geração de consultas sintéticas. Esses resultados indicam que a construção de tabelas parciais guiada semanticamente, combinada com treinamento contrastivo a partir de supervisão gerada por LLM, oferece um paradigma eficaz e escalável para recuperação de tabelas em larga escala. Nosso código está disponível em https://github.com/yumeow0122/CGPT.

English

General-purpose embedding models have demonstrated strong performance in text retrieval but remain suboptimal for table retrieval, where highly structured content leads to semantic compression and query-table mismatch. Recent LLM-based retrieval augmentation methods mitigate this issue by generating synthetic queries, yet they often rely on heuristic partial-table selection and seldom leverage these synthetic queries as supervision to improve the embedding model. We introduce CGPT, a training framework that enhances table retrieval through LLM-generated supervision. CGPT constructs semantically diverse partial tables by clustering table instances using K-means and sampling across clusters to broaden semantic coverage. An LLM then generates synthetic queries for these partial tables, which are used in hard-negative contrastive fine-tuning to refine the embedding model. Experiments across four public benchmarks (MimoTable, OTTQA, FetaQA, and E2E-WTQ) show that CGPT consistently outperforms retrieval baselines, including QGpT, with an average R@1 improvement of 16.54 percent. In a unified multi-domain corpus setting, CGPT further demonstrates strong cross-domain generalization and remains effective even when using smaller LLMs for synthetic query generation. These results indicate that semantically guided partial-table construction, combined with contrastive training from LLM-generated supervision, provides an effective and scalable paradigm for large-scale table retrieval. Our code is available at https://github.com/yumeow0122/CGPT.

CGPT: Tabelas Parciais com Orientação de Agrupamento e Supervisão Gerada por LLM para Recuperação de Tabelas

CGPT: Cluster-Guided Partial Tables with LLM-Generated Supervision for Table Retrieval

Resumo

Support