EvoArena : Suivi de l'évolution de la mémoire pour des agents LLM robustes dans des environnements dynamiques

Résumé

Les agents basés sur de grands modèles de langage (LLM) ont obtenu d'excellentes performances sur un large éventail de benchmarks, mais la plupart des évaluations supposent des environnements statiques. En revanche, le déploiement dans le monde réel est intrinsèquement dynamique, exigeant que les agents alignent continuellement leurs connaissances, compétences et comportements sur des environnements changeants et des conditions de tâches mises à jour. Pour combler cette lacune, nous introduisons EvoArena, une suite de benchmarks qui modélise les changements environnementaux sous forme de séquences de mises à jour progressives couvrant les domaines terminal, logiciel et social. Nous proposons également EvoMem, un paradigme de mémoire basé sur des correctifs qui enregistre l'évolution de la mémoire sous forme d'historiques de mises à jour structurés, permettant aux agents de raisonner sur l'évolution environnementale à travers les changements de leur mémoire. Les expériences montrent que les agents actuels peinent sur EvoArena, atteignant une précision moyenne de 39,6 % dans les domaines évolutifs terminal, logiciel et de préférences sociales. EvoMem améliore systématiquement les performances, avec un gain moyen de 1,5 % sur EvoArena et améliore également des benchmarks standards tels que GAIA et LoCoMo de 6,1 % et 4,8 %. Au-delà des tâches individuelles, EvoMem améliore également la précision au niveau des chaînes de 3,7 % sur EvoArena, où le succès nécessite d'accomplir une séquence consécutive de sous-tâches évolutives liées. Une analyse mécaniste montre qu'EvoMem améliore la capture des preuves dans la mémoire, indiquant une meilleure préservation des états complets des environnements en évolution. Nos résultats soulignent l'importance de modéliser l'évolution tant dans l'évaluation que dans la mémoire pour un déploiement fiable des agents.

English

Large language model (LLM) agents have achieved strong performance on a wide range of benchmarks, yet most evaluations assume static environments. In contrast, real-world deployment is inherently dynamic, requiring agents to continually align their knowledge, skills, and behavior with changing environments and updated task conditions. To address this gap, we introduce EvoArena, a benchmark suite that models environment changes as sequences of progressive updates across terminal, software, and social domains. We further propose EvoMem, a patch-based memory paradigm that records memory evolution as structured update histories, enabling agents to reason about environmental evolution through changes in their memory. Experiments show that current agents struggle on EvoArena, achieving an average accuracy of 39.6% across evolving terminal, software, and social-preference domains. EvoMem consistently improves performance, yielding an average gain of 1.5% on EvoArena and also improving standard benchmarks such as GAIA and LoCoMo by 6.1% and 4.8%. Beyond individual tasks, EvoMem further improves chain-level accuracy by 3.7% on EvoArena, where success requires completing a consecutive sequence of related evolutionary subtasks. Mechanistic analysis shows that EvoMem improves evidence capture in the memory, indicating better preservation of complete evolving environment states. Our results highlight the importance of modeling evolution in both evaluation and memory for reliable agent deployment.