CGPT: Tabelle Parziali Guidate da Cluster con Supervisione Generata da LLM per il Recupero di Tabelle

Abstract

I modelli di embedding generici hanno dimostrato prestazioni solide nel recupero di testo, ma rimangono subottimali per il recupero di tabelle, dove contenuti altamente strutturati causano compressione semantica e una mancata corrispondenza (mismatch) tra query e tabella. Recenti metodi di recupero aumentato basati su LLM mitigano questo problema generando query sintetiche, tuttavia spesso si basano su una selezione euristica di tabelle parziali e raramente sfruttano queste query sintetiche come supervisione per migliorare il modello di embedding. Introduciamo CGPT, un framework di addestramento che potenzia il recupero di tabelle attraverso una supervisione generata da LLM. CGPT costruisce tabelle parziali semanticamente diversificate clusterizzando le istanze di tabella utilizzando K-means e campionando tra i cluster per ampliare la copertura semantica. Un LLM genera quindi query sintetiche per queste tabelle parziali, che vengono utilizzate in un fine-tuning contrastivo con negativi difficili (hard-negative) per affinare il modello di embedding. Esperimenti condotti su quattro benchmark pubblici (MimoTable, OTTQA, FetaQA ed E2E-WTQ) mostrano che CGPT supera costantemente i metodi di recupero baseline, incluso QGpT, con un miglioramento medio di R@1 del 16,54 percento. In uno scenario unificato di corpus multi-dominio, CGPT dimostra inoltre una forte generalizzazione cross-dominio e rimane efficace anche quando vengono utilizzati LLM più piccoli per la generazione di query sintetiche. Questi risultati indicano che la costruzione di tabelle parziali guidata semanticamente, combinata con l'addestramento contrastivo da supervisione generata da LLM, fornisce un paradigma efficace e scalabile per il recupero di tabelle su larga scala. Il nostro codice è disponibile all'indirizzo https://github.com/yumeow0122/CGPT.

English

General-purpose embedding models have demonstrated strong performance in text retrieval but remain suboptimal for table retrieval, where highly structured content leads to semantic compression and query-table mismatch. Recent LLM-based retrieval augmentation methods mitigate this issue by generating synthetic queries, yet they often rely on heuristic partial-table selection and seldom leverage these synthetic queries as supervision to improve the embedding model. We introduce CGPT, a training framework that enhances table retrieval through LLM-generated supervision. CGPT constructs semantically diverse partial tables by clustering table instances using K-means and sampling across clusters to broaden semantic coverage. An LLM then generates synthetic queries for these partial tables, which are used in hard-negative contrastive fine-tuning to refine the embedding model. Experiments across four public benchmarks (MimoTable, OTTQA, FetaQA, and E2E-WTQ) show that CGPT consistently outperforms retrieval baselines, including QGpT, with an average R@1 improvement of 16.54 percent. In a unified multi-domain corpus setting, CGPT further demonstrates strong cross-domain generalization and remains effective even when using smaller LLMs for synthetic query generation. These results indicate that semantically guided partial-table construction, combined with contrastive training from LLM-generated supervision, provides an effective and scalable paradigm for large-scale table retrieval. Our code is available at https://github.com/yumeow0122/CGPT.

CGPT: Tabelle Parziali Guidate da Cluster con Supervisione Generata da LLM per il Recupero di Tabelle

CGPT: Cluster-Guided Partial Tables with LLM-Generated Supervision for Table Retrieval

Abstract

Support