EvoArena: Verfolgung der Gedächtnisevolution für robuste LLM-Agenten in dynamischen Umgebungen

Zusammenfassung

Große Sprachmodelle (LLM) basierte Agenten haben auf einer Vielzahl von Benchmarks eine starke Leistung erzielt, wobei jedoch die meisten Evaluierungen statische Umgebungen voraussetzen. Im Gegensatz dazu ist der reale Einsatz inhärent dynamisch, sodass Agenten ihr Wissen, ihre Fähigkeiten und ihr Verhalten kontinuierlich an sich verändernde Umgebungen und aktualisierte Aufgabenbedingungen anpassen müssen. Um diese Lücke zu schließen, stellen wir EvoArena vor, eine Benchmark-Suite, die Umweltveränderungen als Sequenzen fortschrittlicher Aktualisierungen in den Bereichen Terminal, Software und soziale Präferenzen modelliert. Wir schlagen ferner EvoMem vor, ein patch-basiertes Gedächtnisparadigma, das die Gedächtnisevolution als strukturierte Aktualisierungsverläufe aufzeichnet und es Agenten ermöglicht, durch Veränderungen ihres Gedächtnisses Rückschlüsse auf die Umweltentwicklung zu ziehen. Experimente zeigen, dass aktuelle Agenten bei EvoArena Schwierigkeiten haben und eine durchschnittliche Genauigkeit von 39,6 % über die sich entwickelnden Terminal-, Software- und sozialen Präferenzdomänen erreichen. EvoMem verbessert die Leistung durchgängig, mit einer durchschnittlichen Steigerung von 1,5 % auf EvoArena und verbessert zudem Standard-Benchmarks wie GAIA und LoCoMo um 6,1 % bzw. 4,8 %. Über einzelne Aufgaben hinaus verbessert EvoMem die Genauigkeit auf Kettenebene um 3,7 % auf EvoArena, wobei der Erfolg die vollständige Bearbeitung einer aufeinanderfolgenden Sequenz zusammenhängender evolutionärer Teilaufgaben erfordert. Die mechanistische Analyse zeigt, dass EvoMem die Erfassung von Belegen im Gedächtnis verbessert, was auf eine bessere Bewahrung vollständiger sich entwickelnder Umweltzustände hindeutet. Unsere Ergebnisse unterstreichen die Bedeutung der Modellierung von Evolution sowohl in der Evaluierung als auch im Gedächtnis für einen zuverlässigen Agenteneinsatz.

English

Large language model (LLM) agents have achieved strong performance on a wide range of benchmarks, yet most evaluations assume static environments. In contrast, real-world deployment is inherently dynamic, requiring agents to continually align their knowledge, skills, and behavior with changing environments and updated task conditions. To address this gap, we introduce EvoArena, a benchmark suite that models environment changes as sequences of progressive updates across terminal, software, and social domains. We further propose EvoMem, a patch-based memory paradigm that records memory evolution as structured update histories, enabling agents to reason about environmental evolution through changes in their memory. Experiments show that current agents struggle on EvoArena, achieving an average accuracy of 39.6% across evolving terminal, software, and social-preference domains. EvoMem consistently improves performance, yielding an average gain of 1.5% on EvoArena and also improving standard benchmarks such as GAIA and LoCoMo by 6.1% and 4.8%. Beyond individual tasks, EvoMem further improves chain-level accuracy by 3.7% on EvoArena, where success requires completing a consecutive sequence of related evolutionary subtasks. Mechanistic analysis shows that EvoMem improves evidence capture in the memory, indicating better preservation of complete evolving environment states. Our results highlight the importance of modeling evolution in both evaluation and memory for reliable agent deployment.