Piensa antes de actuar: Transformadores de Decisión con Memoria de Trabajo Interna

Resumen

Los agentes de toma de decisiones basados en modelos de lenguaje de gran escala (LLM) han demostrado la capacidad de generalizar en múltiples tareas. Sin embargo, su rendimiento depende de grandes cantidades de datos y recursos computacionales. Argumentamos que esta ineficiencia surge del fenómeno de olvido, en el cual un modelo memoriza sus comportamientos en los parámetros durante el entrenamiento. Como resultado, entrenar en una nueva tarea puede deteriorar el rendimiento del modelo en tareas anteriores. En contraste con el mecanismo de memoria implícita de los LLM, el cerebro humano utiliza un almacenamiento de memoria distribuido, que ayuda a gestionar y organizar múltiples habilidades de manera eficiente, mitigando el fenómeno de olvido. Inspirados por esto, proponemos un módulo de memoria de trabajo interno para almacenar, combinar y recuperar información para diferentes tareas posteriores. Los resultados de evaluación muestran que el método propuesto mejora la eficiencia del entrenamiento y la generalización tanto en juegos de Atari como en tareas de manipulación de objetos en meta-mundo. Además, demostramos que el ajuste fino de la memoria mejora aún más la adaptabilidad de la arquitectura propuesta.

English

Large language model (LLM)-based decision-making agents have shown the ability to generalize across multiple tasks. However, their performance relies on massive data and compute. We argue that this inefficiency stems from the forgetting phenomenon, in which a model memorizes its behaviors in parameters throughout training. As a result, training on a new task may deteriorate the model's performance on previous tasks. In contrast to LLMs' implicit memory mechanism, the human brain utilizes distributed memory storage, which helps manage and organize multiple skills efficiently, mitigating the forgetting phenomenon. Thus inspired, we propose an internal working memory module to store, blend, and retrieve information for different downstream tasks. Evaluation results show that the proposed method improves training efficiency and generalization in both Atari games and meta-world object manipulation tasks. Moreover, we demonstrate that memory fine-tuning further enhances the adaptability of the proposed architecture.

Piensa antes de actuar: Transformadores de Decisión con Memoria de Trabajo Interna

Think Before You Act: Decision Transformers with Internal Working Memory

Resumen

Support