Zelf-evoluerende LLM-geheugenextractie over heterogene taken
Self-Evolving LLM Memory Extraction Across Heterogeneous Tasks
April 13, 2026
Auteurs: Yuqing Yang, Tengxiao Liu, Wang Bill Zhu, Taiwei Shi, Linxin Song, Robin Jia
cs.AI
Samenvatting
Naarmate op LLM gebaseerde assistenten persistent en gepersonaliseerd worden, moeten zij nuttige informatie uit eerdere gesprekken als geheugen extraheren en behouden. De soorten informatie die het waard zijn om te onthouden, verschillen echter aanzienlijk per taak. Wij formaliseren de heterogene geheugenextractietaak en introduceren BEHEMOTH, een benchmark die 18 bestaande datasets hergebruikt op het gebied van personalisatie, probleemoplossing en agenttaken, met gebruikmaking van een stroomafwaartse utility-gedreven metriek voor systematische evaluatie. Onze empirische analyse bevestigt dat geen enkele statische extractieprompt domineert over alle taakcategorieën, en dat bestaande zelf-evoluerende promptoptimalisatieframeworks, oorspronkelijk ontworpen voor homogene distributies, verslechteren wanneer trainings taken heterogeen zijn. Om dit aan te pakken, stellen wij CluE voor, een op clusters gebaseerde zelf-evoluerende strategie die trainingsvoorbeelden groepeert in clusters per extractiescenario, elke cluster onafhankelijk analyseert en inzichten uit verschillende clusters synthetiseert om de extractieprompt bij te werken. Experimenten op BEHEMOTH tonen aan dat CluE effectief generaliseert over heterogene taken (+9,04% relatieve winst), en consistent beter presteert dan eerdere zelf-evoluerende frameworks.
English
As LLM-based assistants become persistent and personalized, they must extract and retain useful information from past conversations as memory. However, the types of information worth remembering vary considerably across tasks. We formalize the heterogeneous memory extraction task and introduce BEHEMOTH, a benchmark that repurposes 18 existing datasets spanning personalization, problem-solving, and agentic tasks, using a downstream utility-driven metric for systematic evaluation. Our empirical analysis confirms that no single static extraction prompt dominates across all task categories, and that existing self-evolving prompt optimization frameworks, originally designed for homogeneous distributions, degrade when training tasks are heterogeneous. To address this, we propose CluE, a cluster-based self-evolving strategy that groups training examples into clusters by extraction scenarios, analyzes each cluster independently, and synthesizes cross-cluster insights to update the extraction prompt. Experiments on BEHEMOTH show that CluE generalizes effectively across heterogeneous tasks (+9.04\% relative gain), consistently outperforming prior self-evolving frameworks.