RePo: Modelos de Lenguaje con Reposicionamiento Contextual
RePo: Language Models with Context Re-Positioning
December 16, 2025
Autores: Huayang Li, Tianyu Zhao, Richard Sproat
cs.AI
Resumen
El aprendizaje en contexto es fundamental para los Modelos de Lenguaje Grandes (LLMs) modernos; sin embargo, las arquitecturas predominantes imponen una estructura contextual rígida y fija al asignar índices posicionales lineales o constantes. Basándonos en la Teoría de la Carga Cognitiva (CLT), argumentamos que esta estructura no informativa aumenta la carga cognitiva extrínseca, consumiendo una capacidad finita de memoria de trabajo que debería asignarse al razonamiento profundo y a la distribución de la atención. Para abordar esto, proponemos RePo, un mecanismo novedoso que reduce la carga extrínseca mediante el reposicionamiento del contexto. A diferencia de los enfoques estándar, RePo utiliza un módulo diferenciable, f_φ, para asignar posiciones a los tokens que capturan las dependencias contextuales, en lugar de depender de un rango predefinido de enteros. Mediante un pre-entrenamiento continuo en la arquitectura base OLMo-2 1B, demostramos que RePo mejora significativamente el rendimiento en tareas que implican contextos ruidosos, datos estructurados y longitudes de contexto más largas, manteniendo al mismo tiempo un rendimiento competitivo en tareas generales de contexto corto. Un análisis detallado revela que RePo asigna exitosamente una mayor atención a información distante pero relevante, asigna posiciones en un espacio denso y no lineal, y captura la estructura intrínseca del contexto de entrada. Nuestro código está disponible en https://github.com/SakanaAI/repo.
English
In-context learning is fundamental to modern Large Language Models (LLMs); however, prevailing architectures impose a rigid and fixed contextual structure by assigning linear or constant positional indices. Drawing on Cognitive Load Theory (CLT), we argue that this uninformative structure increases extraneous cognitive load, consuming finite working memory capacity that should be allocated to deep reasoning and attention allocation. To address this, we propose RePo, a novel mechanism that reduces extraneous load via context re-positioning. Unlike standard approaches, RePo utilizes a differentiable module, f_φ, to assign token positions that capture contextual dependencies, rather than replying on pre-defined integer range. By continually pre-training on the OLMo-2 1B backbone, we demonstrate that RePo significantly enhances performance on tasks involving noisy contexts, structured data, and longer context length, while maintaining competitive performance on general short-context tasks. Detailed analysis reveals that RePo successfully allocate higher attention to distant but relevant information, assign positions in dense and non-linear space, and capture the intrinsic structure of the input context. Our code is available at https://github.com/SakanaAI/repo.