Extracción de Memoria Auto-Evolutiva en LLMs a través de Tareas Heterogéneas

Resumen

A medida que los asistentes basados en LLM se vuelven persistentes y personalizados, deben extraer y retener información útil de conversaciones pasadas como memoria. Sin embargo, los tipos de información que vale la pena recordar varían considerablemente entre tareas. Formalizamos la tarea de extracción de memoria heterogénea e introducimos BEHEMOTH, un benchmark que reutiliza 18 conjuntos de datos existentes que abarcan tareas de personalización, resolución de problemas y agentes, utilizando una métrica orientada a la utilidad para una evaluación sistemática. Nuestro análisis empírico confirma que ningún *prompt* de extracción estático único domina en todas las categorías de tareas, y que los marcos existentes de optimización automática de *prompts*, diseñados originalmente para distribuciones homogéneas, se degradan cuando las tareas de entrenamiento son heterogéneas. Para abordar esto, proponemos CluE, una estrategia de evolución automática basada en agrupamiento que organiza los ejemplos de entrenamiento en clústeres según escenarios de extracción, analiza cada clúster de forma independiente y sintetiza ideas transversales para actualizar el *prompt* de extracción. Los experimentos en BEHEMOTH muestran que CluE generaliza efectivamente en tareas heterogéneas (+9.04% de ganancia relativa), superando consistentemente a los marcos de evolución automática anteriores.

English

As LLM-based assistants become persistent and personalized, they must extract and retain useful information from past conversations as memory. However, the types of information worth remembering vary considerably across tasks. We formalize the heterogeneous memory extraction task and introduce BEHEMOTH, a benchmark that repurposes 18 existing datasets spanning personalization, problem-solving, and agentic tasks, using a downstream utility-driven metric for systematic evaluation. Our empirical analysis confirms that no single static extraction prompt dominates across all task categories, and that existing self-evolving prompt optimization frameworks, originally designed for homogeneous distributions, degrade when training tasks are heterogeneous. To address this, we propose CluE, a cluster-based self-evolving strategy that groups training examples into clusters by extraction scenarios, analyzes each cluster independently, and synthesizes cross-cluster insights to update the extraction prompt. Experiments on BEHEMOTH show that CluE generalizes effectively across heterogeneous tasks (+9.04\% relative gain), consistently outperforming prior self-evolving frameworks.

Extracción de Memoria Auto-Evolutiva en LLMs a través de Tareas Heterogéneas

Self-Evolving LLM Memory Extraction Across Heterogeneous Tasks

Resumen

Support