ChatPaper.aiChatPaper

Aumentando los Modelos de Lenguaje con Memoria a Largo Plazo

Augmenting Language Models with Long-Term Memory

June 12, 2023
Autores: Weizhi Wang, Li Dong, Hao Cheng, Xiaodong Liu, Xifeng Yan, Jianfeng Gao, Furu Wei
cs.AI

Resumen

Los modelos de lenguaje de gran escala (LLMs) existentes solo pueden manejar entradas de tamaño fijo debido al límite de longitud de entrada, lo que les impide utilizar información rica de contexto largo proveniente de entradas pasadas. Para abordar este problema, proponemos un marco denominado Modelos de Lenguaje Aumentados con Memoria a Largo Plazo (LongMem), que permite a los LLMs memorizar historiales extensos. Diseñamos una arquitectura de red desacoplada novedosa, donde el LLM original se mantiene congelado como un codificador de memoria y una red lateral residual adaptativa actúa como recuperador y lector de memoria. Este diseño de memoria desacoplada permite almacenar y actualizar fácilmente contextos pasados a largo plazo para la recuperación de memoria, sin sufrir de obsolescencia de la memoria. Potenciado con un entrenamiento de adaptación aumentado por memoria, LongMem puede memorizar contextos pasados extensos y utilizar memoria a largo plazo para el modelado del lenguaje. El módulo de recuperación de memoria propuesto puede manejar contextos de longitud ilimitada en su banco de memoria, beneficiando diversas tareas posteriores. Típicamente, LongMem puede ampliar la memoria de formato largo a 65k tokens, permitiendo almacenar ejemplos de demostración adicionales como memoria de formato largo para el aprendizaje en contexto. Los experimentos muestran que nuestro método supera a modelos fuertes de contexto largo en ChapterBreak, un punto de referencia desafiante para el modelado de contexto largo, y logra mejoras notables en el aprendizaje en contexto aumentado por memoria sobre los LLMs. Los resultados demuestran que el método propuesto es efectivo para ayudar a los modelos de lenguaje a memorizar y utilizar contenidos de formato largo. Nuestro código es de código abierto en https://aka.ms/LongMem.
English
Existing large language models (LLMs) can only afford fix-sized inputs due to the input length limit, preventing them from utilizing rich long-context information from past inputs. To address this, we propose a framework, Language Models Augmented with Long-Term Memory (LongMem), which enables LLMs to memorize long history. We design a novel decoupled network architecture with the original backbone LLM frozen as a memory encoder and an adaptive residual side-network as a memory retriever and reader. Such a decoupled memory design can easily cache and update long-term past contexts for memory retrieval without suffering from memory staleness. Enhanced with memory-augmented adaptation training, LongMem can thus memorize long past context and use long-term memory for language modeling. The proposed memory retrieval module can handle unlimited-length context in its memory bank to benefit various downstream tasks. Typically, LongMem can enlarge the long-form memory to 65k tokens and thus cache many-shot extra demonstration examples as long-form memory for in-context learning. Experiments show that our method outperforms strong long-context models on ChapterBreak, a challenging long-context modeling benchmark, and achieves remarkable improvements on memory-augmented in-context learning over LLMs. The results demonstrate that the proposed method is effective in helping language models to memorize and utilize long-form contents. Our code is open-sourced at https://aka.ms/LongMem.
PDF185December 15, 2024