Selbst-evolvierende Extraktion von LLM-Gedächtnissen über heterogene Aufgaben hinweg

Zusammenfassung

Da LLM-basierte Assistenten persistent und personalisiert werden, müssen sie nützliche Informationen aus vergangenen Konversationen als Gedächtnis extrahieren und speichern. Allerdings variieren die Arten von Informationen, die es wert sind, gemerkt zu werden, erheblich zwischen verschiedenen Aufgaben. Wir formalisieren die Aufgabe der heterogenen Gedächtnisextraktion und stellen BEHEMOTH vor, einen Benchmark, der 18 bestehende Datensätze aus den Bereichen Personalisierung, Problemlösung und agentenbasierte Aufgaben neu aufbereitet und dabei eine nutzengetriebene Metrik zur systematischen Evaluation verwendet. Unsere empirische Analyse bestätigt, dass kein einzelner statischer Extraktions-Prompt über alle Aufgabenkategorien hinweg dominiert und dass bestehende, sich selbst weiterentwickelnde Prompt-Optimierungsframeworks, die ursprünglich für homogene Verteilungen konzipiert wurden, an Effektivität verlieren, wenn die Trainingsaufgaben heterogen sind. Um dies zu adressieren, schlagen wir CluE vor, eine clusterbasierte Selbstoptimierungsstrategie, die Trainingsbeispiele nach Extraktionsszenarien gruppiert, jede Gruppe unabhängig analysiert und Erkenntnisse aus verschiedenen Clustern synthetisiert, um den Extraktions-Prompt zu aktualisieren. Experimente mit BEHEMOTH zeigen, dass CluE effektiv über heterogene Aufgaben generalisiert (+9,04 % relativer Gewinn) und dabei konsistent frühere sich selbst weiterentwickelnde Frameworks übertrifft.

English

As LLM-based assistants become persistent and personalized, they must extract and retain useful information from past conversations as memory. However, the types of information worth remembering vary considerably across tasks. We formalize the heterogeneous memory extraction task and introduce BEHEMOTH, a benchmark that repurposes 18 existing datasets spanning personalization, problem-solving, and agentic tasks, using a downstream utility-driven metric for systematic evaluation. Our empirical analysis confirms that no single static extraction prompt dominates across all task categories, and that existing self-evolving prompt optimization frameworks, originally designed for homogeneous distributions, degrade when training tasks are heterogeneous. To address this, we propose CluE, a cluster-based self-evolving strategy that groups training examples into clusters by extraction scenarios, analyzes each cluster independently, and synthesizes cross-cluster insights to update the extraction prompt. Experiments on BEHEMOTH show that CluE generalizes effectively across heterogeneous tasks (+9.04\% relative gain), consistently outperforming prior self-evolving frameworks.

Selbst-evolvierende Extraktion von LLM-Gedächtnissen über heterogene Aufgaben hinweg

Self-Evolving LLM Memory Extraction Across Heterogeneous Tasks

Zusammenfassung

Support