STAR: Representação Semântica de Tabelas com Agrupamento Consciente de Cabeçalhos e Fusão Ponderada Adaptativa

Resumo

A recuperação de tabelas é a tarefa de recuperar as tabelas mais relevantes de grandes corpora, dadas consultas em linguagem natural. No entanto, as discrepâncias estruturais e semânticas entre texto não estruturado e tabelas estruturadas tornam o alinhamento de *embeddings* particularmente desafiador. Métodos recentes, como o QGpT, tentam enriquecer a semântica das tabelas gerando consultas sintéticas, mas ainda dependem de amostragem grosseira de tabelas parciais e estratégias de fusão simples, o que limita a diversidade semântica e dificulta o alinhamento efetivo entre consulta e tabela. Propomos o STAR (*Semantic Table Representation*), um *framework* leve que melhora a representação semântica de tabelas por meio de agrupamento semântico e fusão ponderada. O STAR aplica primeiro o agrupamento K-means com consciência de cabeçalho para agrupar linhas semanticamente similares e seleciona instâncias centróides representativas para construir uma tabela parcial diversificada. Em seguida, gera consultas sintéticas específicas por cluster para cobrir de forma abrangente o espaço semântico da tabela. Por fim, o STAR emprega estratégias de fusão ponderada para integrar os *embeddings* da tabela e da consulta, permitindo um alinhamento semântico de granularidade fina. Este projeto permite que o STAR capture informações complementares de fontes estruturadas e textuais, melhorando a expressividade das representações de tabela. Experimentos em cinco *benchmarks* mostram que o STAR alcança um *Recall* consistentemente maior do que o QGpT em todos os conjuntos de dados, demonstrando a eficácia do agrupamento semântico e da fusão ponderada adaptativa para uma representação robusta de tabelas. O nosso código está disponível em https://github.com/adsl135789/STAR.

English

Table retrieval is the task of retrieving the most relevant tables from large-scale corpora given natural language queries. However, structural and semantic discrepancies between unstructured text and structured tables make embedding alignment particularly challenging. Recent methods such as QGpT attempt to enrich table semantics by generating synthetic queries, yet they still rely on coarse partial-table sampling and simple fusion strategies, which limit semantic diversity and hinder effective query-table alignment. We propose STAR (Semantic Table Representation), a lightweight framework that improves semantic table representation through semantic clustering and weighted fusion. STAR first applies header-aware K-means clustering to group semantically similar rows and selects representative centroid instances to construct a diverse partial table. It then generates cluster-specific synthetic queries to comprehensively cover the table's semantic space. Finally, STAR employs weighted fusion strategies to integrate table and query embeddings, enabling fine-grained semantic alignment. This design enables STAR to capture complementary information from structured and textual sources, improving the expressiveness of table representations. Experiments on five benchmarks show that STAR achieves consistently higher Recall than QGpT on all datasets, demonstrating the effectiveness of semantic clustering and adaptive weighted fusion for robust table representation. Our code is available at https://github.com/adsl135789/STAR.