Эффективное непрерывное обучение языковых моделей с помощью таламически маршрутизируемых корковых колонок

Аннотация

Непрерывное обучение является ключевым требованием для развернутых языковых моделей, однако стандартные конвейеры обучения и тонкой настройки остаются уязвимыми в условиях нестационарных данных. Онлайн-обновления часто приводят к катастрофическому забыванию, в то время как методы, повышающие стабильность, нередко увеличивают задержки, объем потребляемой памяти или плотность вычислений таким образом, что плохо масштабируются на длинные контексты. Мы представляем TRC² (Таламически Маршрутизируемые Кортикальные Колонки) — декодерную архитектуру, которая решает проблему непрерывного обучения на структурном уровне. TRC² объединяет разреженную таламическую маршрутизацию по кортикальным колонкам с механизмами модуляции, предсказания, памяти и обратной связи, а также с быстрым корректирующим путем, который поддерживает быструю адаптацию без дестабилизации более медленных параметров. Результирующий блок является разреженным и параллельно обрабатываемым фрагментами, что обеспечивает эффективное обучение и вывод, сохраняя при этом четкое разделение каждой подсистемы. Мы реализуем воспроизводимый стек обучения и оценки, а также среду для непрерывного обучения, которая измеряет косвенное забывание при потоковых сдвигах домена. В тестах по языковому моделированию и непрерывному обучению TRC² улучшает компромисс между стабильностью и пластичностью при сопоставимых вычислительных затратах, обеспечивая быструю адаптацию в потоке данных с сохранением ранее усвоенного поведения.

English

Continual learning is a core requirement for deployed language models, yet standard training and fine-tuning pipelines remain brittle under non-stationary data. Online updates often induce catastrophic forgetting, while methods that improve stability frequently increase latency, memory footprint, or dense computation in ways that do not scale well to long contexts. We introduce TRC^{2} (Thalamically Routed Cortical Columns), a decoder-only backbone that addresses continual learning at the architectural level. TRC^{2} combines sparse thalamic routing over cortical columns with mechanisms for modulation, prediction, memory, and feedback, together with a fast corrective pathway that supports rapid adaptation without destabilizing slower parameters. The resulting block is sparse and chunk-parallel, enabling efficient training and inference while preserving clean ablations of each subsystem. We instantiate a reproducible training and evaluation stack and a continual-learning harness that measures proxy forgetting under streaming domain shifts. Across language modeling and continual learning benchmarks, TRC^{2} improves the stability-plasticity tradeoff at comparable compute, enabling rapid on-stream adaptation while preserving previously acquired behavior.

Эффективное непрерывное обучение языковых моделей с помощью таламически маршрутизируемых корковых колонок

Efficient Continual Learning in Language Models via Thalamically Routed Cortical Columns

Аннотация

Support