ChatPaper.aiChatPaper

Larimar: Modelos de Linguagem de Grande Escala com Controle de Memória Episódica

Larimar: Large Language Models with Episodic Memory Control

March 18, 2024
Autores: Payel Das, Subhajit Chaudhury, Elliot Nelson, Igor Melnyk, Sarath Swaminathan, Sihui Dai, Aurélie Lozano, Georgios Kollias, Vijil Chenthamarakshan, Jiří, Navrátil, Soham Dan, Pin-Yu Chen
cs.AI

Resumo

A atualização eficiente e precisa do conhecimento armazenado em Modelos de Linguagem de Grande Escala (LLMs) é um dos desafios de pesquisa mais urgentes atualmente. Este artigo apresenta o Larimar - uma arquitetura inovadora, inspirada no cérebro, para aprimorar LLMs com uma memória episódica distribuída. A memória do Larimar permite atualizações dinâmicas e de única etapa do conhecimento sem a necessidade de retreinamento ou ajuste fino computacionalmente caros. Resultados experimentais em múltiplos benchmarks de edição de fatos demonstram que o Larimar atinge uma precisão comparável às linhas de base mais competitivas, mesmo na configuração desafiadora de edição sequencial, mas também se destaca em velocidade - proporcionando acelerações de 4 a 10 vezes, dependendo do LLM base - bem como em flexibilidade, devido à arquitetura proposta ser simples, independente de LLM e, portanto, geral. Além disso, fornecemos mecanismos para esquecimento seletivo de fatos e generalização do comprimento do contexto de entrada com o Larimar e mostramos sua eficácia.
English
Efficient and accurate updating of knowledge stored in Large Language Models (LLMs) is one of the most pressing research challenges today. This paper presents Larimar - a novel, brain-inspired architecture for enhancing LLMs with a distributed episodic memory. Larimar's memory allows for dynamic, one-shot updates of knowledge without the need for computationally expensive re-training or fine-tuning. Experimental results on multiple fact editing benchmarks demonstrate that Larimar attains accuracy comparable to most competitive baselines, even in the challenging sequential editing setup, but also excels in speed - yielding speed-ups of 4-10x depending on the base LLM - as well as flexibility due to the proposed architecture being simple, LLM-agnostic, and hence general. We further provide mechanisms for selective fact forgetting and input context length generalization with Larimar and show their effectiveness.
PDF336December 15, 2024