ChatPaper.aiChatPaper

Larimar : Modèles de langage à grande échelle avec contrôle de mémoire épisodique

Larimar: Large Language Models with Episodic Memory Control

March 18, 2024
Auteurs: Payel Das, Subhajit Chaudhury, Elliot Nelson, Igor Melnyk, Sarath Swaminathan, Sihui Dai, Aurélie Lozano, Georgios Kollias, Vijil Chenthamarakshan, Jiří, Navrátil, Soham Dan, Pin-Yu Chen
cs.AI

Résumé

La mise à jour efficace et précise des connaissances stockées dans les modèles de langage de grande taille (LLMs) constitue l'un des défis de recherche les plus pressants à l'heure actuelle. Cet article présente Larimar - une architecture novatrice inspirée du cerveau, conçue pour enrichir les LLMs avec une mémoire épisodique distribuée. La mémoire de Larimar permet des mises à jour dynamiques et en une seule étape des connaissances, sans nécessiter de ré-entraînement ou de réglage fin coûteux en termes de calcul. Les résultats expérimentaux sur plusieurs benchmarks de modification de faits démontrent que Larimar atteint une précision comparable aux approches les plus compétitives, même dans le cadre difficile des modifications séquentielles, tout en excellant en vitesse - offrant des accélérations de 4 à 10 fois selon le LLM de base - ainsi qu'en flexibilité grâce à une architecture simple, indépendante du LLM, et donc générale. Nous proposons également des mécanismes pour l'oubli sélectif de faits et la généralisation de la longueur du contexte d'entrée avec Larimar, et en démontrons l'efficacité.
English
Efficient and accurate updating of knowledge stored in Large Language Models (LLMs) is one of the most pressing research challenges today. This paper presents Larimar - a novel, brain-inspired architecture for enhancing LLMs with a distributed episodic memory. Larimar's memory allows for dynamic, one-shot updates of knowledge without the need for computationally expensive re-training or fine-tuning. Experimental results on multiple fact editing benchmarks demonstrate that Larimar attains accuracy comparable to most competitive baselines, even in the challenging sequential editing setup, but also excels in speed - yielding speed-ups of 4-10x depending on the base LLM - as well as flexibility due to the proposed architecture being simple, LLM-agnostic, and hence general. We further provide mechanisms for selective fact forgetting and input context length generalization with Larimar and show their effectiveness.

Summary

AI-Generated Summary

PDF345December 15, 2024