LMK > CLS : Regroupement par points de repère pour les plongements denses

papers.abstract

L'apprentissage de représentation est central pour de nombreuses tâches en aval telles que la recherche, le clustering, la classification et le réordonnancement. Les encodeurs de séquences à la pointe de la technologie transforment généralement une séquence de tokens de longueur variable en un vecteur unique à l'aide d'un opérateur de pooling, le plus souvent un token spécial [CLS] ou un pooling moyen sur les embeddings de tokens. Dans cet article, nous identifions des faiblesses systématiques de ces stratégies de pooling : le token [CLS] a tendance à concentrer l'information vers les positions initiales de la séquence et peut sous-représenter des preuves distribuées, tandis que le pooling moyen peut diluer les signaux locaux saillants, conduisant parfois à une moins bonne performance sur des contextes courts. Pour résoudre ces problèmes, nous introduisons le Landmark (LMK) pooling, qui partitionne une séquence en segments, insère des tokens repères entre les segments, et forme la représentation finale par un pooling moyen des embeddings de ces tokens repères. Ce mécanisme simple améliore l'extrapolation aux contextes longs sans sacrifier les caractéristiques locales saillantes, au prix de l'introduction d'un petit nombre de tokens spéciaux. Nous démontrons empiriquement que le LMK pooling égalise les méthodes existantes sur les tâches de recherche en contexte court et apporte des améliorations substantielles sur les tâches en contexte long, ce qui en fait une alternative pratique et évolutive aux méthodes de pooling existantes.

English

Representation learning is central to many downstream tasks such as search, clustering, classification, and reranking. State-of-the-art sequence encoders typically collapse a variable-length token sequence to a single vector using a pooling operator, most commonly a special [CLS] token or mean pooling over token embeddings. In this paper, we identify systematic weaknesses of these pooling strategies: [CLS] tends to concentrate information toward the initial positions of the sequence and can under-represent distributed evidence, while mean pooling can dilute salient local signals, sometimes leading to worse short-context performance. To address these issues, we introduce Landmark (LMK) pooling, which partitions a sequence into chunks, inserts landmark tokens between chunks, and forms the final representation by mean-pooling the landmark token embeddings. This simple mechanism improves long-context extrapolation without sacrificing local salient features, at the cost of introducing a small number of special tokens. We empirically demonstrate that LMK pooling matches existing methods on short-context retrieval tasks and yields substantial improvements on long-context tasks, making it a practical and scalable alternative to existing pooling methods.

LMK > CLS : Regroupement par points de repère pour les plongements denses

LMK > CLS: Landmark Pooling for Dense Embeddings

papers.abstract

Support