Repensando a Internalização Contínua de Experiências para Agentes LLM Auto-Evolutivos

Resumo

A internalização da experiência converte a experiência contextual de interações passadas em capacidade paramétrica reutilizável, oferecendo um caminho promissor para a aprendizagem contínua em modelos de linguagem de grande escala (LLMs). Embora trabalhos anteriores tenham se concentrado predominantemente na transferência de iteração única, descobrimos que, sob aprendizagem de experiência multi-iteração, os métodos existentes sofrem de um colapso progressivo de capacidade, em vez de uma melhoria composta. Examinamos sistematicamente essa falha por meio de três dimensões vitais da internalização da experiência: (1) Granularidade da Experiência: Constatamos que a experiência em nível de princípio é mais durável do que a experiência em nível de instância, pois abstrai efetivamente estratégias transferíveis dos detalhes específicos da trajetória. (2) Padrão de Injeção de Experiência: Nossa análise revela que a injeção passo a passo supera significativamente a injeção global ao alinhar a experiência com estados de decisão intermediários, propriedade crucial para o uso de ferramentas de horizonte longo. (3) Regime de Internalização: Demonstramos que a destilação de contexto off-policy em trajetórias de professor de alta qualidade fornece um sinal de treinamento substancialmente mais estável do que a destilação de contexto on-policy, que é inerentemente limitada por correções locais em estados defeituosos induzidos pelo aluno. Em conjunto, esses insights produzem uma receita simples, porém robusta, para a internalização estável e sustentável da experiência, fornecendo orientação concreta para a engenharia de LLMs autoevolutivos e com aprendizagem contínua.

English

Experience internalization converts contextual experience from past interactions into reusable parametric capability, offering a promising path toward continual learning in large language models (LLMs). While prior work has predominantly focused on single-iteration transfer, we discover that under multi-iteration experience learning, existing methods suffer from a progressive capability collapse rather than compounding improvement. We systematically examine this failure through three vital dimensions of experience internalization: (1) Experience Granularity: We find that principle-level experience is more durable than instance-level experience, as it effectively abstracts transferable strategies away from trajectory-specific details. (2) Experience Injection Pattern: Our analysis reveals that step-wise injection significantly outperforms global injection by aligning experience with intermediate decision states, a property that is critical for long-horizon tool use. (3) Internalization Regime: We demonstrate that off-policy context-distillation on high-quality teacher trajectories provides a substantially more stable training signal than on-policy context-distillation, which is inherently limited by local corrections on student-induced flawed states. Together, these insights yield a simple yet robust recipe for stable and sustainable experience internalization, providing concrete guidance for engineering self-evolving and continually learning LLMs.