Aprendizaje Continuo Eficiente en Modelos de Lenguaje mediante Columnas Corticales Enrutadas Talamicamente

Resumen

El aprendizaje continuo es un requisito fundamental para los modelos de lenguaje desplegados, sin embargo, las metodologías estándar de entrenamiento y ajuste fino siguen siendo frágiles ante datos no estacionarios. Las actualizaciones en línea suelen inducir olvido catastrófico, mientras que los métodos que mejoran la estabilidad frecuentemente incrementan la latencia, la huella de memoria o el cómputo denso de formas que no escalan adecuadamente a contextos largos. Presentamos TRC² (Columnas Corticales Enrutadas Talamicamente), una arquitectura base de solo decodificación que aborda el aprendizaje continuo a nivel arquitectónico. TRC² combina un enrutamiento talámico disperso sobre columnas corticales con mecanismos de modulación, predicción, memoria y retroalimentación, junto con una vía correctiva rápida que permite una adaptación veloz sin desestabilizar los parámetros más lentos. El bloque resultante es disperso y paralelizable por fragmentos, permitiendo un entrenamiento e inferencia eficientes mientras preserva ablaciones limpias de cada subsistema. Instanciamos una pila reproducible de entrenamiento y evaluación, así como un marco de aprendizaje continuo que mide el olvido indirecto bajo cambios de dominio en flujo continuo. En diversos puntos de referencia de modelado del lenguaje y aprendizaje continuo, TRC² mejora el balance estabilidad-plasticidad con un cómputo comparable, permitiendo una rápida adaptación en flujo mientras se preserva el comportamiento previamente adquirido.

English

Continual learning is a core requirement for deployed language models, yet standard training and fine-tuning pipelines remain brittle under non-stationary data. Online updates often induce catastrophic forgetting, while methods that improve stability frequently increase latency, memory footprint, or dense computation in ways that do not scale well to long contexts. We introduce TRC^{2} (Thalamically Routed Cortical Columns), a decoder-only backbone that addresses continual learning at the architectural level. TRC^{2} combines sparse thalamic routing over cortical columns with mechanisms for modulation, prediction, memory, and feedback, together with a fast corrective pathway that supports rapid adaptation without destabilizing slower parameters. The resulting block is sparse and chunk-parallel, enabling efficient training and inference while preserving clean ablations of each subsystem. We instantiate a reproducible training and evaluation stack and a continual-learning harness that measures proxy forgetting under streaming domain shifts. Across language modeling and continual learning benchmarks, TRC^{2} improves the stability-plasticity tradeoff at comparable compute, enabling rapid on-stream adaptation while preserving previously acquired behavior.

Aprendizaje Continuo Eficiente en Modelos de Lenguaje mediante Columnas Corticales Enrutadas Talamicamente

Efficient Continual Learning in Language Models via Thalamically Routed Cortical Columns

Resumen

Support