STAR: Semantische Tabellendarstellung mit headerbewusstem Clustering und adaptiver gewichteter Fusion
STAR: Semantic Table Representation with Header-Aware Clustering and Adaptive Weighted Fusion
January 22, 2026
papers.authors: Shui-Hsiang Hsu, Tsung-Hsiang Chou, Chen-Jui Yu, Yao-Chung Fan
cs.AI
papers.abstract
Tabellenretrieval ist die Aufgabe, die relevantesten Tabellen aus großen Korpora anhand natürlicher Sprachabfragen zu ermitteln. Strukturelle und semantische Diskrepanzen zwischen unstrukturiertem Text und strukturierten Tabellen machen jedoch eine Einbettungsausrichtung besonders schwierig. Aktuelle Methoden wie QGpT versuchen, die Tabellensemantik durch die Generierung synthetischer Abfragen anzureichern, stützen sich aber nach wie vor auf grobe Teil-Tabellen-Stichproben und einfache Fusionsstrategien, was die semantische Vielfalt einschränkt und eine effektive Abfrage-Tabellen-Ausrichtung behindert. Wir stellen STAR (Semantic Table Representation) vor, ein leichtgewichtiges Framework, das die semantische Tabellendarstellung durch semantisches Clustering und gewichtete Fusion verbessert. STAR wendet zunächst Header-bewusstes K-means-Clustering an, um semantisch ähnliche Zeilen zu gruppieren, und wählt repräsentative Zentroid-Instanzen aus, um eine vielfältige Teil-Tabelle zu konstruieren. Anschließend werden clusterspezifische synthetische Abfragen generiert, um den semantischen Raum der Tabelle umfassend abzudecken. Schließlich setzt STAR gewichtete Fusionsstrategien ein, um Tabellen- und Abfrageeinbettungen zu integrieren und so eine feinkörnige semantische Ausrichtung zu ermöglichen. Dieser Aufbau ermöglicht es STAR, komplementäre Informationen aus strukturierten und textuellen Quellen zu erfassen und die Ausdrucksstärke von Tabellendarstellungen zu verbessern. Experimente mit fünf Benchmarks zeigen, dass STAR durchweg eine höhere Trefferquote (Recall) als QGpT auf allen Datensätzen erzielt, was die Wirksamkeit des semantischen Clusterings und der adaptiven gewichteten Fusion für eine robuste Tabellendarstellung demonstriert. Unser Code ist verfügbar unter https://github.com/adsl135789/STAR.
English
Table retrieval is the task of retrieving the most relevant tables from large-scale corpora given natural language queries. However, structural and semantic discrepancies between unstructured text and structured tables make embedding alignment particularly challenging. Recent methods such as QGpT attempt to enrich table semantics by generating synthetic queries, yet they still rely on coarse partial-table sampling and simple fusion strategies, which limit semantic diversity and hinder effective query-table alignment. We propose STAR (Semantic Table Representation), a lightweight framework that improves semantic table representation through semantic clustering and weighted fusion. STAR first applies header-aware K-means clustering to group semantically similar rows and selects representative centroid instances to construct a diverse partial table. It then generates cluster-specific synthetic queries to comprehensively cover the table's semantic space. Finally, STAR employs weighted fusion strategies to integrate table and query embeddings, enabling fine-grained semantic alignment. This design enables STAR to capture complementary information from structured and textual sources, improving the expressiveness of table representations. Experiments on five benchmarks show that STAR achieves consistently higher Recall than QGpT on all datasets, demonstrating the effectiveness of semantic clustering and adaptive weighted fusion for robust table representation. Our code is available at https://github.com/adsl135789/STAR.