ChatPaper.aiChatPaper

CGPT: Cluster-gesteuerte partielle Tabellen mit LLM-generierter Überwachung für Tabellensuche

CGPT: Cluster-Guided Partial Tables with LLM-Generated Supervision for Table Retrieval

January 22, 2026
papers.authors: Tsung-Hsiang Chou, Chen-Jui Yu, Shui-Hsiang Hsu, Yao-Chung Fan
cs.AI

papers.abstract

Allgemeine Embedding-Modelle haben eine hohe Leistungsfähigkeit bei der Textretrieval gezeigt, sind jedoch für Tabellenretrieval nach wie vor suboptimal, da hochstrukturierte Inhalte zu semantischer Kompression und einer Diskrepanz zwischen Anfrage und Tabelle führen. Jüngste, auf LLM basierende Retrieval-Augmentierungsmethoden mildern dieses Problem durch die Generierung synthetischer Anfragen, doch stützen sie sich oft auf heuristische Teil-Tabellen-Auswahl und nutzen diese synthetischen Anfragen selten als Supervision zur Verbesserung des Embedding-Modells. Wir stellen CGPT vor, ein Trainingsframework, das das Tabellenretrieval durch LLM-generierte Supervision verbessert. CGPT konstruiert semantisch diverse Teil-Tabellen, indem Tabelleninstanzen mittels K-Means geclustert und über Cluster hinweg beprobt werden, um die semantische Abdeckung zu erweitern. Ein LLM generiert dann synthetische Anfragen für diese Teil-Tabellen, die für hart-negative kontrastive Feinabstimmung verwendet werden, um das Embedding-Modell zu verbessern. Experimente über vier öffentliche Benchmarks (MimoTable, OTTQA, FetaQA und E2E-WTQ) zeigen, dass CGPT durchgängig die Retrieval-Baselines, einschließlich QGpT, übertrifft, mit einer durchschnittlichen Steigerung von R@1 um 16,54 Prozent. In einem vereinheitlichten Multi-Domain-Korpus-Setting demonstriert CGPT weiterhin starke domänenübergreifende Generalisierung und bleibt effektiv, selbst wenn kleinere LLMs für die synthetische Anfragengenerierung verwendet werden. Diese Ergebnisse deuten darauf hin, dass semantisch gesteuerte Teil-Tabellen-Konstruktion, kombiniert mit kontrastivem Training auf Basis LLM-generierter Supervision, ein effektives und skalierbares Paradigma für großskaliges Tabellenretrieval bietet. Unser Code ist verfügbar unter https://github.com/yumeow0122/CGPT.
English
General-purpose embedding models have demonstrated strong performance in text retrieval but remain suboptimal for table retrieval, where highly structured content leads to semantic compression and query-table mismatch. Recent LLM-based retrieval augmentation methods mitigate this issue by generating synthetic queries, yet they often rely on heuristic partial-table selection and seldom leverage these synthetic queries as supervision to improve the embedding model. We introduce CGPT, a training framework that enhances table retrieval through LLM-generated supervision. CGPT constructs semantically diverse partial tables by clustering table instances using K-means and sampling across clusters to broaden semantic coverage. An LLM then generates synthetic queries for these partial tables, which are used in hard-negative contrastive fine-tuning to refine the embedding model. Experiments across four public benchmarks (MimoTable, OTTQA, FetaQA, and E2E-WTQ) show that CGPT consistently outperforms retrieval baselines, including QGpT, with an average R@1 improvement of 16.54 percent. In a unified multi-domain corpus setting, CGPT further demonstrates strong cross-domain generalization and remains effective even when using smaller LLMs for synthetic query generation. These results indicate that semantically guided partial-table construction, combined with contrastive training from LLM-generated supervision, provides an effective and scalable paradigm for large-scale table retrieval. Our code is available at https://github.com/yumeow0122/CGPT.
PDF101January 28, 2026