Larimar : Modèles de langage à grande échelle avec contrôle de mémoire épisodique
Larimar: Large Language Models with Episodic Memory Control
March 18, 2024
Auteurs: Payel Das, Subhajit Chaudhury, Elliot Nelson, Igor Melnyk, Sarath Swaminathan, Sihui Dai, Aurélie Lozano, Georgios Kollias, Vijil Chenthamarakshan, Jiří, Navrátil, Soham Dan, Pin-Yu Chen
cs.AI
Résumé
La mise à jour efficace et précise des connaissances stockées dans les modèles de langage de grande taille (LLMs) constitue l'un des défis de recherche les plus pressants à l'heure actuelle. Cet article présente Larimar - une architecture novatrice inspirée du cerveau, conçue pour enrichir les LLMs avec une mémoire épisodique distribuée. La mémoire de Larimar permet des mises à jour dynamiques et en une seule étape des connaissances, sans nécessiter de ré-entraînement ou de réglage fin coûteux en termes de calcul. Les résultats expérimentaux sur plusieurs benchmarks de modification de faits démontrent que Larimar atteint une précision comparable aux approches les plus compétitives, même dans le cadre difficile des modifications séquentielles, tout en excellant en vitesse - offrant des accélérations de 4 à 10 fois selon le LLM de base - ainsi qu'en flexibilité grâce à une architecture simple, indépendante du LLM, et donc générale. Nous proposons également des mécanismes pour l'oubli sélectif de faits et la généralisation de la longueur du contexte d'entrée avec Larimar, et en démontrons l'efficacité.
English
Efficient and accurate updating of knowledge stored in Large Language Models
(LLMs) is one of the most pressing research challenges today. This paper
presents Larimar - a novel, brain-inspired architecture for enhancing LLMs with
a distributed episodic memory. Larimar's memory allows for dynamic, one-shot
updates of knowledge without the need for computationally expensive re-training
or fine-tuning. Experimental results on multiple fact editing benchmarks
demonstrate that Larimar attains accuracy comparable to most competitive
baselines, even in the challenging sequential editing setup, but also excels in
speed - yielding speed-ups of 4-10x depending on the base LLM - as well as
flexibility due to the proposed architecture being simple, LLM-agnostic, and
hence general. We further provide mechanisms for selective fact forgetting and
input context length generalization with Larimar and show their effectiveness.Summary
AI-Generated Summary