EvoArena: 動的環境におけるロバストなLLMエージェントのためのメモリ進化の追跡

要旨

大規模言語モデル（LLM）エージェントは、多岐にわたるベンチマークで高い性能を示しているが、その評価のほとんどは静的な環境を前提としている。しかし現実世界への展開は本質的に動的であり、エージェントは変化する環境や更新されたタスク条件に合わせ、自身の知識、スキル、行動を継続的に適応させる必要がある。このギャップを埋めるため、我々はEvoArenaを提案する。これは、端末、ソフトウェア、ソーシャル領域にわたる段階的更新の連続として環境変化をモデル化したベンチマークスイートである。さらに、更新履歴を構造化された形で記録するパッチベースのメモリパラダイムであるEvoMemを提案する。これにより、エージェントは自身のメモリの変化を通じて環境の進化を推論できるようになる。実験の結果、現行のエージェントはEvoArenaにおいて苦戦し、進化的な端末、ソフトウェア、ソーシャル嗜好領域全体での平均正解率は39.6%にとどまった。EvoMemは一貫して性能を向上させ、EvoArena上で平均1.5%の改善をもたらし、さらにGAIAやLoCoMoといった標準ベンチマークでもそれぞれ6.1%、4.8%の向上を示した。個々のタスクを超えて、EvoMemはEvoArenaにおける連鎖レベルの正解率を3.7%改善する。ここでの成功には、関連する進化的サブタスクの連続シーケンスを完了することが求められる。機構分析により、EvoMemはメモリ内の証拠捕捉を改善し、進化する環境状態のより完全な保持を示している。我々の結果は、信頼性の高いエージェント展開には、評価とメモリの両方において進化のモデル化が重要であることを強調している。

English

Large language model (LLM) agents have achieved strong performance on a wide range of benchmarks, yet most evaluations assume static environments. In contrast, real-world deployment is inherently dynamic, requiring agents to continually align their knowledge, skills, and behavior with changing environments and updated task conditions. To address this gap, we introduce EvoArena, a benchmark suite that models environment changes as sequences of progressive updates across terminal, software, and social domains. We further propose EvoMem, a patch-based memory paradigm that records memory evolution as structured update histories, enabling agents to reason about environmental evolution through changes in their memory. Experiments show that current agents struggle on EvoArena, achieving an average accuracy of 39.6% across evolving terminal, software, and social-preference domains. EvoMem consistently improves performance, yielding an average gain of 1.5% on EvoArena and also improving standard benchmarks such as GAIA and LoCoMo by 6.1% and 4.8%. Beyond individual tasks, EvoMem further improves chain-level accuracy by 3.7% on EvoArena, where success requires completing a consecutive sequence of related evolutionary subtasks. Mechanistic analysis shows that EvoMem improves evidence capture in the memory, indicating better preservation of complete evolving environment states. Our results highlight the importance of modeling evolution in both evaluation and memory for reliable agent deployment.