ChatPaper.aiChatPaper

STAR: Representación Semántica de Tablas con Agrupación Consciente de Encabezados y Fusión Ponderada Adaptativa

STAR: Semantic Table Representation with Header-Aware Clustering and Adaptive Weighted Fusion

January 22, 2026
Autores: Shui-Hsiang Hsu, Tsung-Hsiang Chou, Chen-Jui Yu, Yao-Chung Fan
cs.AI

Resumen

La recuperación de tablas es la tarea de recuperar las tablas más relevantes de corpus a gran escala dadas consultas en lenguaje natural. Sin embargo, las discrepancias estructurales y semánticas entre el texto no estructurado y las tablas estructuradas hacen que la alineación de *embeddings* sea particularmente desafiante. Métodos recientes como QGpT intentan enriquecer la semántica de las tablas generando consultas sintéticas, pero aún dependen de un muestreo parcial de tablas tosco y de estrategias de fusión simples, lo que limita la diversidad semántica y dificulta una alineación efectiva entre consultas y tablas. Proponemos STAR (*Semantic Table Representation*), un marco de trabajo ligero que mejora la representación semántica de tablas mediante agrupamiento semántico y fusión ponderada. STAR aplica primero un agrupamiento K-means consciente de los encabezados para agrupar filas semánticamente similares y selecciona instancias centroides representativas para construir una tabla parcial diversa. Luego, genera consultas sintéticas específicas por clúster para cubrir de manera integral el espacio semántico de la tabla. Finalmente, STAR emplea estrategias de fusión ponderada para integrar los *embeddings* de tablas y consultas, permitiendo una alineación semántica de grano fino. Este diseño permite a STAR capturar información complementaria de fuentes estructuradas y textuales, mejorando la expresividad de las representaciones tabulares. Experimentos en cinco puntos de referencia muestran que STAR logra un Recall consistentemente más alto que QGpT en todos los conjuntos de datos, demostrando la efectividad del agrupamiento semántico y la fusión ponderada adaptativa para una representación robusta de tablas. Nuestro código está disponible en https://github.com/adsl135789/STAR.
English
Table retrieval is the task of retrieving the most relevant tables from large-scale corpora given natural language queries. However, structural and semantic discrepancies between unstructured text and structured tables make embedding alignment particularly challenging. Recent methods such as QGpT attempt to enrich table semantics by generating synthetic queries, yet they still rely on coarse partial-table sampling and simple fusion strategies, which limit semantic diversity and hinder effective query-table alignment. We propose STAR (Semantic Table Representation), a lightweight framework that improves semantic table representation through semantic clustering and weighted fusion. STAR first applies header-aware K-means clustering to group semantically similar rows and selects representative centroid instances to construct a diverse partial table. It then generates cluster-specific synthetic queries to comprehensively cover the table's semantic space. Finally, STAR employs weighted fusion strategies to integrate table and query embeddings, enabling fine-grained semantic alignment. This design enables STAR to capture complementary information from structured and textual sources, improving the expressiveness of table representations. Experiments on five benchmarks show that STAR achieves consistently higher Recall than QGpT on all datasets, demonstrating the effectiveness of semantic clustering and adaptive weighted fusion for robust table representation. Our code is available at https://github.com/adsl135789/STAR.
PDF81January 28, 2026