Effizientes kontinuierliches Lernen in Sprachmodellen durch thalamisch geroutete kortikale Säulen

Zusammenfassung

Kontinuierliches Lernen ist eine Kernanforderung für eingesetzte Sprachmodelle, doch Standard-Trainings- und Feinjustierungspipelines bleiben bei nicht-stationären Daten anfällig. Online-Updates führen häufig zu katastrophalem Vergessen, während Methoden zur Verbesserung der Stabilität oft Latenzzeit, Speicherbedarf oder rechenintensive Operationen derart erhöhen, dass sie sich schlecht auf lange Kontexte skalieren lassen. Wir stellen TRC² (Thalamisch Geroutete Kortikale Kolumnen) vor, eine Decoder-Only-Architektur, die kontinuierliches Lernen auf Ebene der Architektur adressiert. TRC² kombiniert sparse thalamisches Routing über kortikale Kolumnen mit Mechanismen für Modulation, Prädiktion, Gedächtnis und Feedback sowie einen schnellen korrektiven Pfad, der rasche Anpassung ohne Destabilisierung langsamerer Parameter ermöglicht. Der resultierende Block ist sparsam und chunk-parallel, was effizientes Training und Inferenz bei gleichzeitiger klarer Abtrennbarkeit der Subsysteme ermöglicht. Wir implementieren einen reproduzierbaren Trainings- und Evaluierungsstack sowie ein Continuous-Learning-Framework, das Stellvertreter-Vergessen unter fließenden Domänenverschiebungen misst. In Sprachmodellierungs- und Continuous-Learning-Benchmarks verbessert TRC² den Stabilitäts-Plastizitäts-Kompromiss bei vergleichbarer Rechenleistung und ermöglicht so schnelle Anpassung im Datenstrom bei Bewahrung zuvor erlernter Verhaltensweisen.

English

Continual learning is a core requirement for deployed language models, yet standard training and fine-tuning pipelines remain brittle under non-stationary data. Online updates often induce catastrophic forgetting, while methods that improve stability frequently increase latency, memory footprint, or dense computation in ways that do not scale well to long contexts. We introduce TRC^{2} (Thalamically Routed Cortical Columns), a decoder-only backbone that addresses continual learning at the architectural level. TRC^{2} combines sparse thalamic routing over cortical columns with mechanisms for modulation, prediction, memory, and feedback, together with a fast corrective pathway that supports rapid adaptation without destabilizing slower parameters. The resulting block is sparse and chunk-parallel, enabling efficient training and inference while preserving clean ablations of each subsystem. We instantiate a reproducible training and evaluation stack and a continual-learning harness that measures proxy forgetting under streaming domain shifts. Across language modeling and continual learning benchmarks, TRC^{2} improves the stability-plasticity tradeoff at comparable compute, enabling rapid on-stream adaptation while preserving previously acquired behavior.

Effizientes kontinuierliches Lernen in Sprachmodellen durch thalamisch geroutete kortikale Säulen

Efficient Continual Learning in Language Models via Thalamically Routed Cortical Columns

Zusammenfassung

Support