ChatPaper.aiChatPaper

Bewertung des Gedächtnisses in LLM-Agenten durch inkrementelle Mehrfachinteraktionen

Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions

July 7, 2025
papers.authors: Yuanzhe Hu, Yu Wang, Julian McAuley
cs.AI

papers.abstract

Aktuelle Benchmarks für Large Language Model (LLM)-Agenten konzentrieren sich hauptsächlich auf die Bewertung von Fähigkeiten im Bereich des logischen Denkens, der Planung und der Ausführung, während ein weiterer kritischer Aspekt – das Gedächtnis, das umfasst, wie Agenten langfristige Informationen speichern, aktualisieren und abrufen – aufgrund des Mangels an geeigneten Benchmarks unterbewertet bleibt. Wir bezeichnen Agenten mit Gedächtnismechanismen als Gedächtnisagenten. In diesem Artikel identifizieren wir vier Kernkompetenzen, die für Gedächtnisagenten wesentlich sind: präzises Abrufen, Lernen zur Testzeit, langfristiges Verständnis und Konfliktlösung. Bestehende Datensätze basieren entweder auf begrenzten Kontextlängen oder sind auf statische, langfristige Kontexte wie buchbasierte Frage-Antwort-Systeme zugeschnitten, die die interaktive, mehrstufige Natur von Gedächtnisagenten, die Informationen schrittweise ansammeln, nicht widerspiegeln. Darüber hinaus deckt kein bestehender Benchmark alle vier Kompetenzen ab. Daher führen wir MemoryAgentBench ein, einen neuen Benchmark, der speziell für Gedächtnisagenten entwickelt wurde. Unser Benchmark kombiniert umformulierte bestehende Datensätze mit neu erstellten und deckt die oben genannten vier Gedächtniskompetenzen ab, wodurch ein systematisches und anspruchsvolles Testumfeld zur Bewertung der Gedächtnisqualität bereitgestellt wird. Wir bewerten eine Vielzahl von Gedächtnisagenten, die von einfachen kontextbasierten und retrieval-augmented generation (RAG)-Systemen bis hin zu fortgeschrittenen Agenten mit externen Gedächtnismodulen und Werkzeugintegration reichen. Empirische Ergebnisse zeigen, dass aktuelle Methoden nicht in der Lage sind, alle vier Kompetenzen zu beherrschen, was die Notwendigkeit weiterer Forschung zu umfassenden Gedächtnismechanismen für LLM-Agenten unterstreicht.
English
Recent benchmarks for Large Language Model (LLM) agents primarily focus on evaluating reasoning, planning, and execution capabilities, while another critical component-memory, encompassing how agents memorize, update, and retrieve long-term information-is under-evaluated due to the lack of benchmarks. We term agents with memory mechanisms as memory agents. In this paper, we identify four core competencies essential for memory agents: accurate retrieval, test-time learning, long-range understanding, and conflict resolution. Existing datasets either rely on limited context lengths or are tailored for static, long-context settings like book-based QA, which do not reflect the interactive, multi-turn nature of memory agents that incrementally accumulate information. Furthermore, no existing benchmarks cover all four competencies. Therefore, we introduce MemoryAgentBench, a new benchmark specifically designed for memory agents. Our benchmark combines reformulated existing datasets with newly constructed ones, covering the above four memory competencies, providing a systematic and challenging testbed for assessing memory quality. We evaluate a diverse set of memory agents, ranging from simple context-based and retrieval-augmented generation (RAG) systems to advanced agents with external memory modules and tool integration. Empirical results reveal that current methods fall short of mastering all four competencies, underscoring the need for further research into comprehensive memory mechanisms for LLM agents.
PDF112July 8, 2025