ChatPaper.aiChatPaper

STAR: Семантическое представление таблиц с учетом заголовков через кластеризацию и адаптивное взвешенное объединение

STAR: Semantic Table Representation with Header-Aware Clustering and Adaptive Weighted Fusion

January 22, 2026
Авторы: Shui-Hsiang Hsu, Tsung-Hsiang Chou, Chen-Jui Yu, Yao-Chung Fan
cs.AI

Аннотация

Извлечение таблиц — это задача поиска наиболее релевантных таблиц из крупномасштабных корпусов по естественно-языковым запросам. Однако структурные и семантические расхождения между неструктурированным текстом и структурированными таблицами делают выравнивание эмбеддингов особенно сложным. Современные методы, такие как QGpT, пытаются обогатить семантику таблиц за счет генерации синтетических запросов, но они по-прежнему полагаются на грубую выборку частичных таблиц и простые стратегии слияния, что ограничивает семантическое разнообразие и препятствует эффективному выравниванию запросов и таблиц. Мы предлагаем STAR (Semantic Table Representation) — легковесный фреймворк, улучшающий семантическое представление таблиц за счет семантической кластеризации и взвешенного слияния. STAR сначала применяет K-means кластеризацию с учетом заголовков для группировки семантически схожих строк и выбирает репрезентативные центроидные экземпляры для построения разнообразной частичной таблицы. Затем генерируются кластер-специфичные синтетические запросы для комплексного охвата семантического пространства таблицы. Наконец, STAR использует взвешенные стратегии слияния для интеграции эмбеддингов таблиц и запросов, обеспечивая тонкое семантическое выравнивание. Данная конструкция позволяет STAR захватывать комплементарную информацию из структурированных и текстовых источников, повышая выразительность табличных представлений. Эксперименты на пяти бенчмарках показывают, что STAR стабильно достигает более высокого показателя Recall по сравнению с QGpT на всех наборах данных, демонстрируя эффективность семантической кластеризации и адаптивного взвешенного слияния для построения устойчивых табличных представлений. Наш код доступен по адресу https://github.com/adsl135789/STAR.
English
Table retrieval is the task of retrieving the most relevant tables from large-scale corpora given natural language queries. However, structural and semantic discrepancies between unstructured text and structured tables make embedding alignment particularly challenging. Recent methods such as QGpT attempt to enrich table semantics by generating synthetic queries, yet they still rely on coarse partial-table sampling and simple fusion strategies, which limit semantic diversity and hinder effective query-table alignment. We propose STAR (Semantic Table Representation), a lightweight framework that improves semantic table representation through semantic clustering and weighted fusion. STAR first applies header-aware K-means clustering to group semantically similar rows and selects representative centroid instances to construct a diverse partial table. It then generates cluster-specific synthetic queries to comprehensively cover the table's semantic space. Finally, STAR employs weighted fusion strategies to integrate table and query embeddings, enabling fine-grained semantic alignment. This design enables STAR to capture complementary information from structured and textual sources, improving the expressiveness of table representations. Experiments on five benchmarks show that STAR achieves consistently higher Recall than QGpT on all datasets, demonstrating the effectiveness of semantic clustering and adaptive weighted fusion for robust table representation. Our code is available at https://github.com/adsl135789/STAR.
PDF81January 28, 2026