Aumentando Modelos de Linguagem com Memória de Longo Prazo
Augmenting Language Models with Long-Term Memory
June 12, 2023
Autores: Weizhi Wang, Li Dong, Hao Cheng, Xiaodong Liu, Xifeng Yan, Jianfeng Gao, Furu Wei
cs.AI
Resumo
Os modelos de linguagem de grande escala (LLMs, na sigla em inglês) existentes só conseguem processar entradas de tamanho fixo devido ao limite de comprimento de entrada, o que os impede de utilizar informações ricas de contexto longo provenientes de entradas passadas. Para resolver isso, propomos um framework, denominado Language Models Augmented with Long-Term Memory (LongMem), que permite que os LLMs memorizem um histórico longo. Projetamos uma arquitetura de rede decoupled inovadora, na qual o backbone original do LLM é mantido congelado como um codificador de memória, enquanto uma rede lateral residual adaptativa atua como um recuperador e leitor de memória. Esse design de memória decoupled permite armazenar e atualizar facilmente contextos passados de longo prazo para recuperação de memória, sem sofrer com a obsolescência da memória. Aprimorado com treinamento de adaptação aumentado por memória, o LongMem consegue memorizar contextos passados longos e utilizar memória de longo prazo para modelagem de linguagem. O módulo de recuperação de memória proposto pode lidar com contextos de comprimento ilimitado em seu banco de memória, beneficiando diversas tarefas downstream. Tipicamente, o LongMem pode ampliar a memória de longo formato para 65 mil tokens, armazenando assim exemplos de demonstração extras de muitos exemplos como memória de longo formato para aprendizado em contexto. Experimentos mostram que nosso método supera modelos de contexto longo robustos no ChapterBreak, um benchmark desafiador de modelagem de contexto longo, e alcança melhorias notáveis no aprendizado em contexto aumentado por memória em comparação com LLMs. Os resultados demonstram que o método proposto é eficaz em ajudar modelos de linguagem a memorizar e utilizar conteúdos de longo formato. Nosso código está disponível como open-source em https://aka.ms/LongMem.
English
Existing large language models (LLMs) can only afford fix-sized inputs due to
the input length limit, preventing them from utilizing rich long-context
information from past inputs. To address this, we propose a framework, Language
Models Augmented with Long-Term Memory (LongMem), which enables LLMs to
memorize long history. We design a novel decoupled network architecture with
the original backbone LLM frozen as a memory encoder and an adaptive residual
side-network as a memory retriever and reader. Such a decoupled memory design
can easily cache and update long-term past contexts for memory retrieval
without suffering from memory staleness. Enhanced with memory-augmented
adaptation training, LongMem can thus memorize long past context and use
long-term memory for language modeling. The proposed memory retrieval module
can handle unlimited-length context in its memory bank to benefit various
downstream tasks. Typically, LongMem can enlarge the long-form memory to 65k
tokens and thus cache many-shot extra demonstration examples as long-form
memory for in-context learning. Experiments show that our method outperforms
strong long-context models on ChapterBreak, a challenging long-context modeling
benchmark, and achieves remarkable improvements on memory-augmented in-context
learning over LLMs. The results demonstrate that the proposed method is
effective in helping language models to memorize and utilize long-form
contents. Our code is open-sourced at https://aka.ms/LongMem.