ChatPaper.aiChatPaper

STAR: 헤더 인식 클러스터링 및 적응형 가중 융합을 통한 의미론적 테이블 표현

STAR: Semantic Table Representation with Header-Aware Clustering and Adaptive Weighted Fusion

January 22, 2026
저자: Shui-Hsiang Hsu, Tsung-Hsiang Chou, Chen-Jui Yu, Yao-Chung Fan
cs.AI

초록

표 검색은 자연어 질의가 주어졌을 때 대규모 코퍼스에서 가장 관련성 높은 표를 검색해내는 과제입니다. 그러나 비정형 텍스트와 정형화된 표 간의 구조적 및 의미론적 차이로 인해 임베딩 정렬이 특히 어려운 과제로 남아있습니다. QGpT와 같은 최근 방법론은 합성 질의를 생성하여 표 의미론을 풍부하게 하려고 시도하지만, 여전히 단순한 부분 표 샘플링과 단순 융합 전략에 의존하여 의미론적 다양성이 제한되고 효과적인 질의-표 정렬을 방해합니다. 본 논문에서는 의미론적 클러스터링과 가중 융합을 통해 표 의미론 표현을 개선하는 경량 프레임워크인 STAR(Semantic Table Representation)를 제안합니다. STAR는 먼저 헤더 인식 K-평균 클러스터링을 적용하여 의미론적으로 유사한 행들을 그룹화하고, 다양한 부분 표를 구성하기 위해 대표적인 중심 인스턴스를 선택합니다. 그런 다음 클러스터 특화 합성 질의를 생성하여 표의 의미론적 공간을 포괄적으로 커버합니다. 마지막으로 STAR는 가중 융합 전략을 사용하여 표와 질의 임베딩을 통합함으로써 세밀한 의미론적 정렬을 가능하게 합니다. 이러한 설계를 통해 STAR는 정형 및 비정형 소스로부터 상호 보완적인 정보를 포착하여 표 표현의 표현력을 향상시킵니다. 5개 벤치마크에 대한 실험 결과, STAR는 모든 데이터셋에서 QGpT 대비 일관적으로 높은 재현율(Recall)을 달성하여 강력한 표 표현을 위한 의미론적 클러스터링과 적응형 가중 융합의 효과성을 입증했습니다. 코드는 https://github.com/adsl135789/STAR에서 확인할 수 있습니다.
English
Table retrieval is the task of retrieving the most relevant tables from large-scale corpora given natural language queries. However, structural and semantic discrepancies between unstructured text and structured tables make embedding alignment particularly challenging. Recent methods such as QGpT attempt to enrich table semantics by generating synthetic queries, yet they still rely on coarse partial-table sampling and simple fusion strategies, which limit semantic diversity and hinder effective query-table alignment. We propose STAR (Semantic Table Representation), a lightweight framework that improves semantic table representation through semantic clustering and weighted fusion. STAR first applies header-aware K-means clustering to group semantically similar rows and selects representative centroid instances to construct a diverse partial table. It then generates cluster-specific synthetic queries to comprehensively cover the table's semantic space. Finally, STAR employs weighted fusion strategies to integrate table and query embeddings, enabling fine-grained semantic alignment. This design enables STAR to capture complementary information from structured and textual sources, improving the expressiveness of table representations. Experiments on five benchmarks show that STAR achieves consistently higher Recall than QGpT on all datasets, demonstrating the effectiveness of semantic clustering and adaptive weighted fusion for robust table representation. Our code is available at https://github.com/adsl135789/STAR.
PDF81January 28, 2026