Repenser l'internalisation continue de l'expérience pour des agents LLM auto-évolutifs

Résumé

L'internalisation de l'expérience convertit l'expérience contextuelle issue d'interactions passées en une capacité paramétrique réutilisable, offrant une voie prometteuse pour l'apprentissage continu dans les grands modèles de langage (LLMs). Alors que les travaux antérieurs se sont principalement concentrés sur un transfert en une seule itération, nous découvrons que, dans le cadre d'un apprentissage par expérience multi-itération, les méthodes existantes subissent un effondrement progressif des capacités plutôt qu'une amélioration cumulative. Nous examinons systématiquement cet échec à travers trois dimensions essentielles de l'internalisation de l'expérience : (1) Granularité de l'expérience : nous constatons que l'expérience au niveau des principes est plus durable que l'expérience au niveau des instances, car elle abstrait efficacement des stratégies transférables en s'affranchissant des détails spécifiques aux trajectoires. (2) Modèle d'injection de l'expérience : notre analyse révèle que l'injection par étapes surpasse significativement l'injection globale en alignant l'expérience sur les états décisionnels intermédiaires, une propriété cruciale pour l'utilisation d'outils à long horizon. (3) Régime d'internalisation : nous démontrons que la distillation de contexte hors politique sur des trajectoires d'enseignant de haute qualité fournit un signal d'entraînement nettement plus stable que la distillation de contexte sur politique, qui est intrinsèquement limitée par des corrections locales sur des états défectueux induits par l'élève. Ensemble, ces perspectives aboutissent à une recette simple mais robuste pour une internalisation stable et durable de l'expérience, offrant des orientations concrètes pour l'ingénierie de LLMs auto-évolutifs et en apprentissage continu.

English

Experience internalization converts contextual experience from past interactions into reusable parametric capability, offering a promising path toward continual learning in large language models (LLMs). While prior work has predominantly focused on single-iteration transfer, we discover that under multi-iteration experience learning, existing methods suffer from a progressive capability collapse rather than compounding improvement. We systematically examine this failure through three vital dimensions of experience internalization: (1) Experience Granularity: We find that principle-level experience is more durable than instance-level experience, as it effectively abstracts transferable strategies away from trajectory-specific details. (2) Experience Injection Pattern: Our analysis reveals that step-wise injection significantly outperforms global injection by aligning experience with intermediate decision states, a property that is critical for long-horizon tool use. (3) Internalization Regime: We demonstrate that off-policy context-distillation on high-quality teacher trajectories provides a substantially more stable training signal than on-policy context-distillation, which is inherently limited by local corrections on student-induced flawed states. Together, these insights yield a simple yet robust recipe for stable and sustainable experience internalization, providing concrete guidance for engineering self-evolving and continually learning LLMs.