ChatPaper.aiChatPaper

RePo: Языковые модели с перепозиционированием контекста

RePo: Language Models with Context Re-Positioning

December 16, 2025
Авторы: Huayang Li, Tianyu Zhao, Richard Sproat
cs.AI

Аннотация

Обучение в контексте является фундаментальным свойством современных больших языковых моделей (LLM), однако преобладающие архитектуры накладывают жесткую и фиксированную контекстную структуру, назначая линейные или постоянные позиционные индексы. Опираясь на теорию когнитивной нагрузки (CLT), мы утверждаем, что такая неинформативная структура увеличивает постороннюю когнитивную нагрузку, потребляя ограниченную ресурсы рабочей памяти, которые должны быть выделены на глубокие рассуждения и распределение внимания. Для решения этой проблемы мы предлагаем RePo — новый механизм, снижающий постороннюю нагрузку за счет перепозиционирования контекста. В отличие от стандартных подходов, RePo использует дифференцируемый модуль f_φ для назначения позиций токенов, которые отражают контекстные зависимости, вместо reliance на предопределенный целочисленный диапазон. Путем непрерывного дообучения на базе OLMo-2 1B мы демонстрируем, что RePo значительно улучшает производительность на задачах с зашумленными контекстами, структурированными данными и увеличенной длиной контекста, сохраняя при этом конкурентоспособные результаты на общих задачах с коротким контекстом. Детальный анализ показывает, что RePo успешно уделяет больше внимания удаленной, но релевантной информации, назначает позиции в плотном и нелинейном пространстве и захватывает внутреннюю структуру входного контекста. Наш код доступен по адресу https://github.com/SakanaAI/repo.
English
In-context learning is fundamental to modern Large Language Models (LLMs); however, prevailing architectures impose a rigid and fixed contextual structure by assigning linear or constant positional indices. Drawing on Cognitive Load Theory (CLT), we argue that this uninformative structure increases extraneous cognitive load, consuming finite working memory capacity that should be allocated to deep reasoning and attention allocation. To address this, we propose RePo, a novel mechanism that reduces extraneous load via context re-positioning. Unlike standard approaches, RePo utilizes a differentiable module, f_φ, to assign token positions that capture contextual dependencies, rather than replying on pre-defined integer range. By continually pre-training on the OLMo-2 1B backbone, we demonstrate that RePo significantly enhances performance on tasks involving noisy contexts, structured data, and longer context length, while maintaining competitive performance on general short-context tasks. Detailed analysis reveals that RePo successfully allocate higher attention to distant but relevant information, assign positions in dense and non-linear space, and capture the intrinsic structure of the input context. Our code is available at https://github.com/SakanaAI/repo.
PDF41December 18, 2025