LMK > CLS: Agrupamento por Pontos de Referência para Incorporações Densas

Resumo

A aprendizagem de representação é fundamental para muitas tarefas subsequentes, como busca, agrupamento, classificação e reordenação. Os codificadores de sequência de última geração normalmente condensam uma sequência de tokens de comprimento variável em um único vetor usando um operador de pooling, mais comumente um token especial [CLS] ou o *pooling* médio (*mean pooling*) sobre os *embeddings* dos tokens. Neste artigo, identificamos fragilidades sistemáticas nessas estratégias de *pooling*: o [CLS] tende a concentrar a informação nas posições iniciais da sequência e pode sub-representar evidências distribuídas, enquanto o *pooling* médio pode diluir sinais locais salientes, por vezes levando a um desempenho inferior em contextos curtos. Para resolver estas questões, introduzimos o *Landmark Pooling* (LMK), que particiona uma sequência em segmentos, insere tokens de referência (*landmarks*) entre os segmentos e forma a representação final através do *pooling* médio dos *embeddings* desses tokens de referência. Este mecanismo simples melhora a extrapolação para contextos longos sem sacrificar características locais salientes, ao custo de introduzir um pequeno número de tokens especiais. Demonstramos empiricamente que o LMK *pooling* equipara-se aos métodos existentes em tarefas de recuperação de contexto curto e produz melhorias substanciais em tarefas de contexto longo, tornando-o uma alternativa prática e escalável aos métodos de *pooling* atuais.

English

Representation learning is central to many downstream tasks such as search, clustering, classification, and reranking. State-of-the-art sequence encoders typically collapse a variable-length token sequence to a single vector using a pooling operator, most commonly a special [CLS] token or mean pooling over token embeddings. In this paper, we identify systematic weaknesses of these pooling strategies: [CLS] tends to concentrate information toward the initial positions of the sequence and can under-represent distributed evidence, while mean pooling can dilute salient local signals, sometimes leading to worse short-context performance. To address these issues, we introduce Landmark (LMK) pooling, which partitions a sequence into chunks, inserts landmark tokens between chunks, and forms the final representation by mean-pooling the landmark token embeddings. This simple mechanism improves long-context extrapolation without sacrificing local salient features, at the cost of introducing a small number of special tokens. We empirically demonstrate that LMK pooling matches existing methods on short-context retrieval tasks and yields substantial improvements on long-context tasks, making it a practical and scalable alternative to existing pooling methods.

LMK > CLS: Agrupamento por Pontos de Referência para Incorporações Densas

LMK > CLS: Landmark Pooling for Dense Embeddings

Resumo

Support