LMK > CLS: Landmark-Pooling für dichte Einbettungen

papers.abstract

Repräsentationslernen ist von zentraler Bedeutung für viele nachgelagerte Aufgaben wie Suche, Clustering, Klassifikation und Neubewertung (Reranking). Moderne Sequenzencoder komprimieren typischerweise eine Token-Sequenz variabler Länge mithilfe eines Pooling-Operators auf einen einzelnen Vektor, am häufigsten durch einen speziellen [CLS]-Token oder durch Mean-Pooling über Token-Einbettungen. In diesem Artikel identifizieren wir systematische Schwächen dieser Pooling-Strategien: [CLS] tendiert dazu, Informationen in Richtung der Anfangspositionen der Sequenz zu bündeln und kann verteilte Evidenz unterrepräsentieren, während Mean-Pooling relevante lokale Signale verwässern kann, was manchmal zu einer schlechteren Leistung bei kurzen Kontexten führt. Um diese Probleme zu adressieren, führen wir Landmark (LMK)-Pooling ein, das eine Sequenz in Abschnitte unterteilt, Landmark-Tokens zwischen diesen Abschnitten einfügt und die finale Repräsentation durch Mean-Pooling der Landmark-Token-Einbettungen bildet. Dieser einfache Mechanismus verbessert die Extrapolation bei langen Kontexten, ohne lokale salienten Merkmale zu opfern, auf Kosten einer geringen Anzahl zusätzlicher spezieller Tokens. Wir zeigen empirisch, dass LMK-Pooling bei Retrieval-Aufgaben mit kurzem Kontext mit bestehenden Methoden mithält und bei Aufgaben mit langem Kontext erhebliche Verbesserungen erzielt, was es zu einer praktischen und skalierbaren Alternative zu bestehenden Pooling-Methoden macht.

English

Representation learning is central to many downstream tasks such as search, clustering, classification, and reranking. State-of-the-art sequence encoders typically collapse a variable-length token sequence to a single vector using a pooling operator, most commonly a special [CLS] token or mean pooling over token embeddings. In this paper, we identify systematic weaknesses of these pooling strategies: [CLS] tends to concentrate information toward the initial positions of the sequence and can under-represent distributed evidence, while mean pooling can dilute salient local signals, sometimes leading to worse short-context performance. To address these issues, we introduce Landmark (LMK) pooling, which partitions a sequence into chunks, inserts landmark tokens between chunks, and forms the final representation by mean-pooling the landmark token embeddings. This simple mechanism improves long-context extrapolation without sacrificing local salient features, at the cost of introducing a small number of special tokens. We empirically demonstrate that LMK pooling matches existing methods on short-context retrieval tasks and yields substantial improvements on long-context tasks, making it a practical and scalable alternative to existing pooling methods.

LMK > CLS: Landmark-Pooling für dichte Einbettungen

LMK > CLS: Landmark Pooling for Dense Embeddings

papers.abstract

Support