ChatPaper.aiChatPaper

ELMUR : Mémoire de Couche Externe avec Mise à Jour/Réécriture pour l'Apprentissage par Renforcement à Long Horizon

ELMUR: External Layer Memory with Update/Rewrite for Long-Horizon RL

October 8, 2025
papers.authors: Egor Cherepanov, Alexey K. Kovalev, Aleksandr I. Panov
cs.AI

papers.abstract

Les agents robotiques du monde réel doivent agir dans des conditions de visibilité partielle et sur des horizons temporels étendus, où des indices cruciaux peuvent apparaître bien avant qu'ils n'influencent la prise de décision. Cependant, la plupart des approches modernes reposent uniquement sur des informations instantanées, sans intégrer les insights du passé. Les modèles récurrents ou transformeurs standards peinent à retenir et à exploiter les dépendances à long terme : les fenêtres de contexte tronquent l'historique, tandis que les extensions naïves de mémoire échouent face à l'échelle et à la parcimonie. Nous proposons ELMUR (External Layer Memory with Update/Rewrite), une architecture de transformeur dotée d'une mémoire externe structurée. Chaque couche maintient des embeddings de mémoire, interagit avec eux via une attention croisée bidirectionnelle, et les met à jour grâce à un module de mémoire LRU (Least Recently Used) utilisant un remplacement ou un mélange convexe. ELMUR étend les horizons effectifs jusqu'à 100 000 fois au-delà de la fenêtre d'attention et atteint un taux de réussite de 100 % sur une tâche synthétique de labyrinthe en T avec des corridors allant jusqu'à un million d'étapes. Dans POPGym, il surpasse les modèles de référence sur plus de la moitié des tâches. Sur les tâches de manipulation à récompense éparse MIKASA-Robo avec observations visuelles, il double presque les performances des modèles de référence solides. Ces résultats démontrent qu'une mémoire externe structurée et locale aux couches offre une approche simple et scalable pour la prise de décision sous visibilité partielle.
English
Real-world robotic agents must act under partial observability and long horizons, where key cues may appear long before they affect decision making. However, most modern approaches rely solely on instantaneous information, without incorporating insights from the past. Standard recurrent or transformer models struggle with retaining and leveraging long-term dependencies: context windows truncate history, while naive memory extensions fail under scale and sparsity. We propose ELMUR (External Layer Memory with Update/Rewrite), a transformer architecture with structured external memory. Each layer maintains memory embeddings, interacts with them via bidirectional cross-attention, and updates them through an Least Recently Used (LRU) memory module using replacement or convex blending. ELMUR extends effective horizons up to 100,000 times beyond the attention window and achieves a 100% success rate on a synthetic T-Maze task with corridors up to one million steps. In POPGym, it outperforms baselines on more than half of the tasks. On MIKASA-Robo sparse-reward manipulation tasks with visual observations, it nearly doubles the performance of strong baselines. These results demonstrate that structured, layer-local external memory offers a simple and scalable approach to decision making under partial observability.
PDF22October 13, 2025