STAR: ヘッダー認識クラスタリングと適応的加重融合によるセマンティックテーブル表現
STAR: Semantic Table Representation with Header-Aware Clustering and Adaptive Weighted Fusion
January 22, 2026
著者: Shui-Hsiang Hsu, Tsung-Hsiang Chou, Chen-Jui Yu, Yao-Chung Fan
cs.AI
要旨
表検索は、自然言語クエリを与えられた大規模コーパスから最も関連性の高い表を検索するタスクである。しかし、非構造化テキストと構造化された表の間の構造的・意味的乖離は、埋め込みのアライメントを特に困難にしている。QGpTなどの最近の手法は、合成クエリを生成することで表の意味論を強化しようとするが、それらは依然として粗い部分表サンプリングと単純な融合戦略に依存しており、意味的多様性を制限し、効果的なクエリと表のアライメントを妨げている。我々は、意味的クラスタリングと重み付き融合を通じて意味的表表現を改善する軽量フレームワークSTARを提案する。STARはまず、ヘッダーを考慮したK-meansクラスタリングを適用して意味的に類似した行をグループ化し、代表的な重心インスタンスを選択して多様な部分表を構築する。次に、クラスター固有の合成クエリを生成し、表の意味空間を包括的にカバーする。最後に、STARは重み付き融合戦略を採用して表とクエリの埋め込みを統合し、きめ細かい意味的アライメントを可能にする。この設計により、STARは構造化された情報とテキスト情報から相補的な情報を捕捉し、表表現の表現力を向上させる。5つのベンチマークによる実験では、STARが全てのデータセットでQGpTよりも一貫して高い再現率を達成し、頑健な表表現のための意味的クラスタリングと適応的重み付き融合の有効性が実証された。コードはhttps://github.com/adsl135789/STAR で公開されている。
English
Table retrieval is the task of retrieving the most relevant tables from large-scale corpora given natural language queries. However, structural and semantic discrepancies between unstructured text and structured tables make embedding alignment particularly challenging. Recent methods such as QGpT attempt to enrich table semantics by generating synthetic queries, yet they still rely on coarse partial-table sampling and simple fusion strategies, which limit semantic diversity and hinder effective query-table alignment. We propose STAR (Semantic Table Representation), a lightweight framework that improves semantic table representation through semantic clustering and weighted fusion. STAR first applies header-aware K-means clustering to group semantically similar rows and selects representative centroid instances to construct a diverse partial table. It then generates cluster-specific synthetic queries to comprehensively cover the table's semantic space. Finally, STAR employs weighted fusion strategies to integrate table and query embeddings, enabling fine-grained semantic alignment. This design enables STAR to capture complementary information from structured and textual sources, improving the expressiveness of table representations. Experiments on five benchmarks show that STAR achieves consistently higher Recall than QGpT on all datasets, demonstrating the effectiveness of semantic clustering and adaptive weighted fusion for robust table representation. Our code is available at https://github.com/adsl135789/STAR.