Bewertung des Gedächtnisses in LLM-Agenten durch inkrementelle Mehrfachinteraktionen
Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions
July 7, 2025
papers.authors: Yuanzhe Hu, Yu Wang, Julian McAuley
cs.AI
papers.abstract
Aktuelle Benchmarks für Large Language Model (LLM)-Agenten konzentrieren sich hauptsächlich auf die Bewertung von Fähigkeiten im Bereich des logischen Denkens, der Planung und der Ausführung, während ein weiterer kritischer Aspekt – das Gedächtnis, das umfasst, wie Agenten langfristige Informationen speichern, aktualisieren und abrufen – aufgrund des Mangels an geeigneten Benchmarks unterbewertet bleibt. Wir bezeichnen Agenten mit Gedächtnismechanismen als Gedächtnisagenten. In diesem Artikel identifizieren wir vier Kernkompetenzen, die für Gedächtnisagenten wesentlich sind: präzises Abrufen, Lernen zur Testzeit, langfristiges Verständnis und Konfliktlösung. Bestehende Datensätze basieren entweder auf begrenzten Kontextlängen oder sind auf statische, langfristige Kontexte wie buchbasierte Frage-Antwort-Systeme zugeschnitten, die die interaktive, mehrstufige Natur von Gedächtnisagenten, die Informationen schrittweise ansammeln, nicht widerspiegeln. Darüber hinaus deckt kein bestehender Benchmark alle vier Kompetenzen ab. Daher führen wir MemoryAgentBench ein, einen neuen Benchmark, der speziell für Gedächtnisagenten entwickelt wurde. Unser Benchmark kombiniert umformulierte bestehende Datensätze mit neu erstellten und deckt die oben genannten vier Gedächtniskompetenzen ab, wodurch ein systematisches und anspruchsvolles Testumfeld zur Bewertung der Gedächtnisqualität bereitgestellt wird. Wir bewerten eine Vielzahl von Gedächtnisagenten, die von einfachen kontextbasierten und retrieval-augmented generation (RAG)-Systemen bis hin zu fortgeschrittenen Agenten mit externen Gedächtnismodulen und Werkzeugintegration reichen. Empirische Ergebnisse zeigen, dass aktuelle Methoden nicht in der Lage sind, alle vier Kompetenzen zu beherrschen, was die Notwendigkeit weiterer Forschung zu umfassenden Gedächtnismechanismen für LLM-Agenten unterstreicht.
English
Recent benchmarks for Large Language Model (LLM) agents primarily focus on
evaluating reasoning, planning, and execution capabilities, while another
critical component-memory, encompassing how agents memorize, update, and
retrieve long-term information-is under-evaluated due to the lack of
benchmarks. We term agents with memory mechanisms as memory agents. In this
paper, we identify four core competencies essential for memory agents: accurate
retrieval, test-time learning, long-range understanding, and conflict
resolution. Existing datasets either rely on limited context lengths or are
tailored for static, long-context settings like book-based QA, which do not
reflect the interactive, multi-turn nature of memory agents that incrementally
accumulate information. Furthermore, no existing benchmarks cover all four
competencies. Therefore, we introduce MemoryAgentBench, a new benchmark
specifically designed for memory agents. Our benchmark combines reformulated
existing datasets with newly constructed ones, covering the above four memory
competencies, providing a systematic and challenging testbed for assessing
memory quality. We evaluate a diverse set of memory agents, ranging from simple
context-based and retrieval-augmented generation (RAG) systems to advanced
agents with external memory modules and tool integration. Empirical results
reveal that current methods fall short of mastering all four competencies,
underscoring the need for further research into comprehensive memory mechanisms
for LLM agents.