STAR : Représentation Sémantique de Tableaux avec Clustering Sensible aux En-têtes et Fusion Pondérée Adaptative
STAR: Semantic Table Representation with Header-Aware Clustering and Adaptive Weighted Fusion
January 22, 2026
papers.authors: Shui-Hsiang Hsu, Tsung-Hsiang Chou, Chen-Jui Yu, Yao-Chung Fan
cs.AI
papers.abstract
La recherche de tables est la tâche consistant à retrouver les tables les plus pertinentes dans de vastes corpus à partir de requêtes en langage naturel. Cependant, les écarts structurels et sémantiques entre le texte non structuré et les tables structurées rendent l'alignement des embeddings particulièrement difficile. Des méthodes récentes comme QGpT tentent d'enrichir la sémantique des tables en générant des requêtes synthétiques, mais elles reposent encore sur un échantillonnage partiel grossier des tables et des stratégies de fusion simples, ce qui limite la diversité sémantique et entrave un alignement efficace requête-table. Nous proposons STAR (Semantic Table Representation), un cadre léger qui améliore la représentation sémantique des tables par clustering sémantique et fusion pondérée. STAR applique d'abord un clustering K-means sensible aux en-têtes pour grouper les lignes sémantiquement similaires et sélectionne des instances centroïdes représentatives pour construire une table partielle diversifiée. Il génère ensuite des requêtes synthétiques spécifiques aux clusters pour couvrir complètement l'espace sémantique de la table. Enfin, STAR utilise des stratégies de fusion pondérée pour intégrer les embeddings des tables et des requêtes, permettant un alignement sémantique fin. Cette conception permet à STAR de capturer des informations complémentaires à partir de sources structurées et textuelles, améliorant l'expressivité des représentations tabulaires. Les expériences sur cinq benchmarks montrent que STAR obtient un Rappel constamment supérieur à QGpT sur tous les jeux de données, démontrant l'efficacité du clustering sémantique et de la fusion pondérée adaptative pour une représentation robuste des tables. Notre code est disponible à l'adresse https://github.com/adsl135789/STAR.
English
Table retrieval is the task of retrieving the most relevant tables from large-scale corpora given natural language queries. However, structural and semantic discrepancies between unstructured text and structured tables make embedding alignment particularly challenging. Recent methods such as QGpT attempt to enrich table semantics by generating synthetic queries, yet they still rely on coarse partial-table sampling and simple fusion strategies, which limit semantic diversity and hinder effective query-table alignment. We propose STAR (Semantic Table Representation), a lightweight framework that improves semantic table representation through semantic clustering and weighted fusion. STAR first applies header-aware K-means clustering to group semantically similar rows and selects representative centroid instances to construct a diverse partial table. It then generates cluster-specific synthetic queries to comprehensively cover the table's semantic space. Finally, STAR employs weighted fusion strategies to integrate table and query embeddings, enabling fine-grained semantic alignment. This design enables STAR to capture complementary information from structured and textual sources, improving the expressiveness of table representations. Experiments on five benchmarks show that STAR achieves consistently higher Recall than QGpT on all datasets, demonstrating the effectiveness of semantic clustering and adaptive weighted fusion for robust table representation. Our code is available at https://github.com/adsl135789/STAR.