ChatPaper.aiChatPaper

CGPT: Tablas Parciales Guiadas por Clústeres con Supervisión Generada por LLM para Recuperación de Tablas

CGPT: Cluster-Guided Partial Tables with LLM-Generated Supervision for Table Retrieval

January 22, 2026
Autores: Tsung-Hsiang Chou, Chen-Jui Yu, Shui-Hsiang Hsu, Yao-Chung Fan
cs.AI

Resumen

Los modelos de incrustación de propósito general han demostrado un alto rendimiento en la recuperación de texto, pero siguen siendo subóptimos para la recuperación de tablas, donde el contenido altamente estructurado proviene compresión semántica y desajustes entre consultas y tablas. Los métodos recientes de aumento de recuperación basados en LLM mitigan este problema generando consultas sintéticas, pero a menudo dependen de una selección heurística de tablas parciales y rara vez aprovechan estas consultas sintéticas como supervisión para mejorar el modelo de incrustación. Presentamos CGPT, un marco de entrenamiento que mejora la recuperación de tablas mediante supervisión generada por LLM. CGPT construye tablas parciales semánticamente diversas agrupando instancias de tablas mediante K-means y muestreando entre clusters para ampliar la cobertura semántica. Un LLM genera entonces consultas sintéticas para estas tablas parciales, que se utilizan en un ajuste fino contrastivo con ejemplos negativos difíciles para refinar el modelo de incrustación. Los experimentos en cuatro benchmarks públicos (MimoTable, OTTQA, FetaQA y E2E-WTQ) muestran que CGPT supera consistentemente a los baselines de recuperación, incluido QGpT, con una mejora promedio en R@1 del 16.54 por ciento. En un entorno unificado de corpus multidisciplinar, CGPT demuestra además una fuerte generalización cross-dominio y mantiene su eficacia incluso cuando se utilizan LLM más pequeños para la generación de consultas sintéticas. Estos resultados indican que la construcción de tablas parciales guiada semánticamente, combinada con el entrenamiento contrastivo a partir de supervisión generada por LLM, proporciona un paradigma eficaz y escalable para la recuperación de tablas a gran escala. Nuestro código está disponible en https://github.com/yumeow0122/CGPT.
English
General-purpose embedding models have demonstrated strong performance in text retrieval but remain suboptimal for table retrieval, where highly structured content leads to semantic compression and query-table mismatch. Recent LLM-based retrieval augmentation methods mitigate this issue by generating synthetic queries, yet they often rely on heuristic partial-table selection and seldom leverage these synthetic queries as supervision to improve the embedding model. We introduce CGPT, a training framework that enhances table retrieval through LLM-generated supervision. CGPT constructs semantically diverse partial tables by clustering table instances using K-means and sampling across clusters to broaden semantic coverage. An LLM then generates synthetic queries for these partial tables, which are used in hard-negative contrastive fine-tuning to refine the embedding model. Experiments across four public benchmarks (MimoTable, OTTQA, FetaQA, and E2E-WTQ) show that CGPT consistently outperforms retrieval baselines, including QGpT, with an average R@1 improvement of 16.54 percent. In a unified multi-domain corpus setting, CGPT further demonstrates strong cross-domain generalization and remains effective even when using smaller LLMs for synthetic query generation. These results indicate that semantically guided partial-table construction, combined with contrastive training from LLM-generated supervision, provides an effective and scalable paradigm for large-scale table retrieval. Our code is available at https://github.com/yumeow0122/CGPT.
PDF101January 28, 2026