LMK > CLS: Пулинг ориентиров для плотных векторных представлений

Аннотация

Обучение представлений играет ключевую роль во многих последующих задачах, таких как поиск, кластеризация, классификация и переранжирование. Современные кодировщики последовательностей обычно преобразуют последовательность токенов переменной длины в единый вектор с помощью оператора пулинга, чаще всего специального токена [CLS] или усреднения эмбеддингов токенов. В данной статье мы выявляем систематические недостатки этих стратегий пулинга: [CLS] склонен концентрировать информацию в начальных позициях последовательности и может недостаточно отражать распределенные признаки, в то время как усредняющий пулинг может размывать важные локальные сигналы, иногда ухудшая работу в коротких контекстах. Для решения этих проблем мы предлагаем Landmark (LMK) пулинг, который разбивает последовательность на фрагменты, вставляет между ними маркерные токены и формирует итоговое представление путем усреднения эмбеддингов маркерных токенов. Этот простой механизм улучшает экстраполяцию на длинных контекстах без потери локальных значимых признаков, ценой введения небольшого количества специальных токенов. Мы эмпирически демонстрируем, что LMK пулинг соответствует существующим методам в задачах поиска с коротким контекстом и обеспечивает существенное улучшение в задачах с длинным контекстом, что делает его практичной и масштабируемой альтернативой существующим методам пулинга.

English

Representation learning is central to many downstream tasks such as search, clustering, classification, and reranking. State-of-the-art sequence encoders typically collapse a variable-length token sequence to a single vector using a pooling operator, most commonly a special [CLS] token or mean pooling over token embeddings. In this paper, we identify systematic weaknesses of these pooling strategies: [CLS] tends to concentrate information toward the initial positions of the sequence and can under-represent distributed evidence, while mean pooling can dilute salient local signals, sometimes leading to worse short-context performance. To address these issues, we introduce Landmark (LMK) pooling, which partitions a sequence into chunks, inserts landmark tokens between chunks, and forms the final representation by mean-pooling the landmark token embeddings. This simple mechanism improves long-context extrapolation without sacrificing local salient features, at the cost of introducing a small number of special tokens. We empirically demonstrate that LMK pooling matches existing methods on short-context retrieval tasks and yields substantial improvements on long-context tasks, making it a practical and scalable alternative to existing pooling methods.

LMK > CLS: Пулинг ориентиров для плотных векторных представлений

LMK > CLS: Landmark Pooling for Dense Embeddings

Аннотация

Support