Apprentissage continu efficace dans les modèles de langage via des colonnes corticales acheminées thalamiquement

Résumé

L'apprentissage continu est une exigence fondamentale pour les modèles de langage déployés, mais les pipelines d'entraînement et de fine-tuning standards restent fragiles face à des données non stationnaires. Les mises à jour en ligne induisent souvent un oubli catastrophique, tandis que les méthodes améliorant la stabilité augmentent fréquemment la latence, l'empreinte mémoire ou le calcul dense d'une manière qui ne s'adapte pas bien aux contextes longs. Nous présentons TRC² (Colonnes Corticales à Routage Thalamique), une architecture de type décodeur uniquement qui aborde l'apprentissage continu au niveau architectural. TRC² combine un routage thalamique épars sur des colonnes corticales avec des mécanismes de modulation, de prédiction, de mémoire et de rétroaction, ainsi qu'une voie corrective rapide qui permet une adaptation rapide sans déstabiliser les paramètres plus lents. Le bloc résultant est épars et parallélisable par blocs, permettant un entraînement et une inférence efficaces tout en préservant des ablations propres de chaque sous-système. Nous instancions une pile d'entraînement et d'évaluation reproductible ainsi qu'un harnais d'apprentissage continu qui mesure l'oubli par procuration sous des changements de domaine en flux. Sur des benchmarks de modélisation du langage et d'apprentissage continu, TRC² améliore le compromis stabilité-plasticité à puissance de calcul comparable, permettant une adaptation rapide en flux tout en préservant les comportements acquis précédemment.

English

Continual learning is a core requirement for deployed language models, yet standard training and fine-tuning pipelines remain brittle under non-stationary data. Online updates often induce catastrophic forgetting, while methods that improve stability frequently increase latency, memory footprint, or dense computation in ways that do not scale well to long contexts. We introduce TRC^{2} (Thalamically Routed Cortical Columns), a decoder-only backbone that addresses continual learning at the architectural level. TRC^{2} combines sparse thalamic routing over cortical columns with mechanisms for modulation, prediction, memory, and feedback, together with a fast corrective pathway that supports rapid adaptation without destabilizing slower parameters. The resulting block is sparse and chunk-parallel, enabling efficient training and inference while preserving clean ablations of each subsystem. We instantiate a reproducible training and evaluation stack and a continual-learning harness that measures proxy forgetting under streaming domain shifts. Across language modeling and continual learning benchmarks, TRC^{2} improves the stability-plasticity tradeoff at comparable compute, enabling rapid on-stream adaptation while preserving previously acquired behavior.

Apprentissage continu efficace dans les modèles de langage via des colonnes corticales acheminées thalamiquement

Efficient Continual Learning in Language Models via Thalamically Routed Cortical Columns

Résumé

Support