Neubetrachtung der kontinuierlichen Internalisierung von Erfahrungen für selbst-evolvierende LLM-Agenten

Zusammenfassung

Erfahrungsinternalisierung wandelt kontextuelle Erfahrung aus früheren Interaktionen in wiederverwendbare parametrische Fähigkeiten um und bietet einen vielversprechenden Weg zum kontinuierlichen Lernen in großen Sprachmodellen (LLMs). Während sich frühere Arbeiten vorwiegend auf Einzeliterationstransfer konzentriert haben, entdecken wir, dass bei Mehrfachiterations-Erfahrungslernen bestehende Methoden unter einem fortschreitenden Fähigkeitskollaps leiden, anstatt sich verstärkende Verbesserungen zu erzielen. Wir untersuchen dieses Versagen systematisch anhand von drei wesentlichen Dimensionen der Erfahrungsinternalisierung: (1) Erfahrungsgranularität: Wir stellen fest, dass Erfahrung auf Prinzipienebene haltbarer ist als Erfahrung auf Instanzebene, da sie effektiv übertragbare Strategien von trajektorienspezifischen Details abstrahiert. (2) Erfahrungseinspritzmuster: Unsere Analyse zeigt, dass schrittweise Einspritzung die globale Einspritzung deutlich übertrifft, indem sie Erfahrung mit Zwischenentscheidungszuständen abgleicht – eine Eigenschaft, die für langfristige Werkzeugnutzung entscheidend ist. (3) Internalisierungsregime: Wir demonstrieren, dass Off-Policy-Kontextdestillation auf qualitativ hochwertigen Lehrertrajektorien ein wesentlich stabileres Trainingssignal liefert als On-Policy-Kontextdestillation, die inhärent durch lokale Korrekturen auf schülerinduzierten fehlerhaften Zuständen begrenzt ist. Zusammengefasst liefern diese Erkenntnisse ein einfaches, aber robustes Rezept für stabile und nachhaltige Erfahrungsinternalisierung und bieten konkrete Leitlinien für die Entwicklung sich selbst weiterentwickelnder und kontinuierlich lernender LLMs.

English

Experience internalization converts contextual experience from past interactions into reusable parametric capability, offering a promising path toward continual learning in large language models (LLMs). While prior work has predominantly focused on single-iteration transfer, we discover that under multi-iteration experience learning, existing methods suffer from a progressive capability collapse rather than compounding improvement. We systematically examine this failure through three vital dimensions of experience internalization: (1) Experience Granularity: We find that principle-level experience is more durable than instance-level experience, as it effectively abstracts transferable strategies away from trajectory-specific details. (2) Experience Injection Pattern: Our analysis reveals that step-wise injection significantly outperforms global injection by aligning experience with intermediate decision states, a property that is critical for long-horizon tool use. (3) Internalization Regime: We demonstrate that off-policy context-distillation on high-quality teacher trajectories provides a substantially more stable training signal than on-policy context-distillation, which is inherently limited by local corrections on student-induced flawed states. Together, these insights yield a simple yet robust recipe for stable and sustainable experience internalization, providing concrete guidance for engineering self-evolving and continually learning LLMs.