Apprendimento Continuo Efficiente nei Modelli Linguistici tramite Colonne Corticali Instradate Talamicamente

Abstract

L'apprendimento continuo è un requisito fondamentale per i modelli linguistici impiegati in produzione, eppure le pipeline standard di addestramento e fine-tuning rimangono fragili in contesti di dati non stazionari. Gli aggiornamenti online spesso inducono una dimenticanza catastrofica, mentre i metodi che migliorano la stabilità aumentano frequentemente la latenza, l'occupazione di memoria o il carico computazionale in modi che non si adattano bene a contesti lunghi. Introduciamo TRC² (Colonne Corticali con Instradamento Talamico), un'architettura di tipo decoder-only che affronta l'apprendimento continuo a livello architetturale. TRC² combina un instradamento talamico sparso su colonne corticali con meccanismi di modulazione, predizione, memoria e feedback, insieme a un percorso correttivo rapido che supporta un adattamento veloce senza destabilizzare i parametri più lenti. Il blocco risultante è sparso e parallelo per segmenti (chunk), consentendo un addestramento e un'inferenza efficienti preservando al contempo la possibilità di ablazioni pulite di ciascun sottosistema. Istanziamo uno stack riproducibile di addestramento e valutazione e un framework per l'apprendimento continuo che misura la dimenticanza indiretta sotto l'effetto di cambiamenti di dominio in flusso. In vari benchmark di modellazione del linguaggio e apprendimento continuo, TRC² migliora il compromesso stabilità-plasticità a parità di potenza di calcolo, permettendo un rapido adattamento in flusso mentre si preservano i comportamenti appresi in precedenza.

English

Continual learning is a core requirement for deployed language models, yet standard training and fine-tuning pipelines remain brittle under non-stationary data. Online updates often induce catastrophic forgetting, while methods that improve stability frequently increase latency, memory footprint, or dense computation in ways that do not scale well to long contexts. We introduce TRC^{2} (Thalamically Routed Cortical Columns), a decoder-only backbone that addresses continual learning at the architectural level. TRC^{2} combines sparse thalamic routing over cortical columns with mechanisms for modulation, prediction, memory, and feedback, together with a fast corrective pathway that supports rapid adaptation without destabilizing slower parameters. The resulting block is sparse and chunk-parallel, enabling efficient training and inference while preserving clean ablations of each subsystem. We instantiate a reproducible training and evaluation stack and a continual-learning harness that measures proxy forgetting under streaming domain shifts. Across language modeling and continual learning benchmarks, TRC^{2} improves the stability-plasticity tradeoff at comparable compute, enabling rapid on-stream adaptation while preserving previously acquired behavior.

Apprendimento Continuo Efficiente nei Modelli Linguistici tramite Colonne Corticali Instradate Talamicamente

Efficient Continual Learning in Language Models via Thalamically Routed Cortical Columns

Abstract

Support