Modelos de Linguagem Precisam de Sono

Resumo

Modelos de linguagem de grande escala baseados em Transformers são cada vez mais utilizados para tarefas de longo horizonte; no entanto, seu mecanismo de atenção escala de forma deficiente com o comprimento do contexto. Para lidar com isso, estudamos um mecanismo de consolidação semelhante ao sono, no qual um modelo converte periodicamente o contexto recente em pesos rápidos persistentes antes de limpar seu cache de chave-valor. Durante o sono, o modelo realiza N passagens recorrentes offline sobre o contexto acumulado e atualiza os pesos rápidos em seus blocos de modelo de espaço de estados (SSM) por meio de uma regra local aprendida. Durante a inferência, isso desloca o custo computacional extra para o sono, preservando a latência da predição em estado de vigília. Testamos nosso método em tarefas sintéticas controladas, incluindo autômatos celulares e recuperação em grafo com múltiplos saltos, bem como em uma tarefa realista de raciocínio matemático, na quais um Transformer comum e modelos híbridos de SSM com atenção falham. Em seguida, mostramos que aumentar a duração do sono N em nossos modelos melhora o desempenho, com os maiores ganhos ocorrendo em exemplos que exigem raciocínio mais profundo.

English

Transformer-based large language models are increasingly used for long-horizon tasks; however, their attention mechanism scales poorly with context length. To handle this, we study a sleep-like consolidation mechanism in which a model periodically converts recent context into persistent fast weights before clearing its key-value cache. During sleep, the model performs N offline recurrent passes over the accumulated context and updates the fast weights in its state-space model (SSM) blocks through a learned local rule. During inference, this shifts extra computation to sleep while preserving the latency of wake-time prediction. We test our method on controlled synthetic tasks, including cellular automata and multi-hop graph retrieval, as well as a realistic math reasoning task, on which a regular transformer as well as SSM-attention hybrid models fail. We then show that increasing sleep duration N for our models improves performance, with the largest gains on examples that require deeper reasoning.