LMK > CLS: Agrupación por Puntos de Referencia para Incrustaciones Densas

Resumen

El aprendizaje de representaciones es fundamental para muchas tareas posteriores como búsqueda, agrupación, clasificación y reordenamiento. Los codificadores de secuencia de última generación suelen colapsar una secuencia de tokens de longitud variable en un único vector mediante un operador de *pooling*, más comúnmente un token especial [CLS] o el promedio de los *embeddings* de tokens. En este artículo, identificamos debilidades sistemáticas de estas estrategias de *pooling*: [CLS] tiende a concentrar la información hacia las posiciones iniciales de la secuencia y puede subrepresentar la evidencia distribuida, mientras que el promedio de *embeddings* puede diluir señales locales salientes, lo que a veces conduce a un peor rendimiento en contextos cortos. Para abordar estos problemas, presentamos Landmark (LMK) *pooling*, que divide una secuencia en fragmentos, inserta tokens de referencia (*landmark*) entre ellos y forma la representación final promediando los *embeddings* de estos tokens de referencia. Este mecanismo sencillo mejora la extrapolación a contextos largos sin sacrificar las características salientes locales, a costa de introducir un pequeño número de tokens especiales. Demostramos empíricamente que LMK *pooling* iguala a los métodos existentes en tareas de recuperación de contexto corto y produce mejoras sustanciales en tareas de contexto largo, lo que lo convierte en una alternativa práctica y escalable a los métodos de *pooling* existentes.

English

Representation learning is central to many downstream tasks such as search, clustering, classification, and reranking. State-of-the-art sequence encoders typically collapse a variable-length token sequence to a single vector using a pooling operator, most commonly a special [CLS] token or mean pooling over token embeddings. In this paper, we identify systematic weaknesses of these pooling strategies: [CLS] tends to concentrate information toward the initial positions of the sequence and can under-represent distributed evidence, while mean pooling can dilute salient local signals, sometimes leading to worse short-context performance. To address these issues, we introduce Landmark (LMK) pooling, which partitions a sequence into chunks, inserts landmark tokens between chunks, and forms the final representation by mean-pooling the landmark token embeddings. This simple mechanism improves long-context extrapolation without sacrificing local salient features, at the cost of introducing a small number of special tokens. We empirically demonstrate that LMK pooling matches existing methods on short-context retrieval tasks and yields substantial improvements on long-context tasks, making it a practical and scalable alternative to existing pooling methods.

LMK > CLS: Agrupación por Puntos de Referencia para Incrustaciones Densas

LMK > CLS: Landmark Pooling for Dense Embeddings

Resumen

Support