Aprendizagem Contínua Eficiente em Modelos de Linguagem via Colunas Corticais Roteadas pelo Tálamo

Resumo

A aprendizagem contínua é um requisito fundamental para modelos de linguagem em produção, contudo, os fluxos padrão de treinamento e *fine-tuning* permanecem frágeis perante dados não estacionários. Atualizações online frequentemente induzem o esquecimento catastrófico, enquanto métodos que melhoram a estabilidade geralmente aumentam a latência, a pegada de memória ou a computação densa de formas que não são escaláveis para contextos longos. Apresentamos o TRC² (*Thalamically Routed Cortical Columns*), uma arquitetura base *decoder-only* que aborda a aprendizagem contínua a nível arquitetural. O TRC² combina o roteamento talâmico esparso sobre colunas corticais com mecanismos de modulação, predição, memória e *feedback*, juntamente com uma via corretiva rápida que suporta adaptação rápida sem desestabilizar parâmetros mais lentos. O bloco resultante é esparso e paralelizável por *chunks*, permitindo treinamento e inferência eficientes enquanto preserva *ablations* limpas de cada subsistema. Instanciamos uma pilha de treinamento e avaliação reproduzível e um *harness* de aprendizagem contínua que mede o esquecimento por procuração sob mudanças de domínio em fluxo. Em benchmarks de modelagem de linguagem e aprendizagem contínua, o TRC² melhora o equilíbrio estabilidade-plasticidade com custo computacional comparável, permitindo rápida adaptação em fluxo enquanto preserva comportamentos previamente adquiridos.

English

Continual learning is a core requirement for deployed language models, yet standard training and fine-tuning pipelines remain brittle under non-stationary data. Online updates often induce catastrophic forgetting, while methods that improve stability frequently increase latency, memory footprint, or dense computation in ways that do not scale well to long contexts. We introduce TRC^{2} (Thalamically Routed Cortical Columns), a decoder-only backbone that addresses continual learning at the architectural level. TRC^{2} combines sparse thalamic routing over cortical columns with mechanisms for modulation, prediction, memory, and feedback, together with a fast corrective pathway that supports rapid adaptation without destabilizing slower parameters. The resulting block is sparse and chunk-parallel, enabling efficient training and inference while preserving clean ablations of each subsystem. We instantiate a reproducible training and evaluation stack and a continual-learning harness that measures proxy forgetting under streaming domain shifts. Across language modeling and continual learning benchmarks, TRC^{2} improves the stability-plasticity tradeoff at comparable compute, enabling rapid on-stream adaptation while preserving previously acquired behavior.

Aprendizagem Contínua Eficiente em Modelos de Linguagem via Colunas Corticais Roteadas pelo Tálamo

Efficient Continual Learning in Language Models via Thalamically Routed Cortical Columns

Resumo

Support