Aumentando Modelos de Linguagem com Memória de Longo Prazo

Resumo

Os modelos de linguagem de grande escala (LLMs, na sigla em inglês) existentes só conseguem processar entradas de tamanho fixo devido ao limite de comprimento de entrada, o que os impede de utilizar informações ricas de contexto longo provenientes de entradas passadas. Para resolver isso, propomos um framework, denominado Language Models Augmented with Long-Term Memory (LongMem), que permite que os LLMs memorizem um histórico longo. Projetamos uma arquitetura de rede decoupled inovadora, na qual o backbone original do LLM é mantido congelado como um codificador de memória, enquanto uma rede lateral residual adaptativa atua como um recuperador e leitor de memória. Esse design de memória decoupled permite armazenar e atualizar facilmente contextos passados de longo prazo para recuperação de memória, sem sofrer com a obsolescência da memória. Aprimorado com treinamento de adaptação aumentado por memória, o LongMem consegue memorizar contextos passados longos e utilizar memória de longo prazo para modelagem de linguagem. O módulo de recuperação de memória proposto pode lidar com contextos de comprimento ilimitado em seu banco de memória, beneficiando diversas tarefas downstream. Tipicamente, o LongMem pode ampliar a memória de longo formato para 65 mil tokens, armazenando assim exemplos de demonstração extras de muitos exemplos como memória de longo formato para aprendizado em contexto. Experimentos mostram que nosso método supera modelos de contexto longo robustos no ChapterBreak, um benchmark desafiador de modelagem de contexto longo, e alcança melhorias notáveis no aprendizado em contexto aumentado por memória em comparação com LLMs. Os resultados demonstram que o método proposto é eficaz em ajudar modelos de linguagem a memorizar e utilizar conteúdos de longo formato. Nosso código está disponível como open-source em https://aka.ms/LongMem.

English

Existing large language models (LLMs) can only afford fix-sized inputs due to the input length limit, preventing them from utilizing rich long-context information from past inputs. To address this, we propose a framework, Language Models Augmented with Long-Term Memory (LongMem), which enables LLMs to memorize long history. We design a novel decoupled network architecture with the original backbone LLM frozen as a memory encoder and an adaptive residual side-network as a memory retriever and reader. Such a decoupled memory design can easily cache and update long-term past contexts for memory retrieval without suffering from memory staleness. Enhanced with memory-augmented adaptation training, LongMem can thus memorize long past context and use long-term memory for language modeling. The proposed memory retrieval module can handle unlimited-length context in its memory bank to benefit various downstream tasks. Typically, LongMem can enlarge the long-form memory to 65k tokens and thus cache many-shot extra demonstration examples as long-form memory for in-context learning. Experiments show that our method outperforms strong long-context models on ChapterBreak, a challenging long-context modeling benchmark, and achieves remarkable improvements on memory-augmented in-context learning over LLMs. The results demonstrate that the proposed method is effective in helping language models to memorize and utilize long-form contents. Our code is open-sourced at https://aka.ms/LongMem.

Aumentando Modelos de Linguagem com Memória de Longo Prazo

Augmenting Language Models with Long-Term Memory

Resumo

Support