Aprendizagem Experiencial Online para Modelos de Linguagem

Resumo

O paradigma predominante para melhorar modelos de linguagem grandes baseia-se no treinamento offline com anotações humanas ou ambientes simulados, deixando totalmente inexplorada a rica experiência acumulada durante a implantação no mundo real. Propomos a Aprendizagem Experiencial Online (OEL), uma estrutura que permite que os modelos de linguagem melhorem continuamente a partir de sua própria experiência de implantação. A OEL opera em duas etapas: primeiro, o conhecimento experiencial transferível é extraído e acumulado a partir de trajetórias de interação coletadas no lado do usuário; segundo, esse conhecimento é consolidado nos parâmetros do modelo por meio de destilação contextual on-policy, sem exigir acesso ao ambiente do lado do usuário. As duas etapas são iteradas para formar um ciclo de aprendizagem online, onde o modelo aprimorado coleta trajetórias de maior qualidade que produzem conhecimento experiencial mais rico para rodadas subsequentes. Avaliamos a OEL em ambientes de jogos baseados em texto em várias escalas de modelo e variantes com e sem raciocínio. A OEL alcança melhorias consistentes ao longo de iterações sucessivas, aumentando a precisão da tarefa e a eficiência de tokens, preservando ao mesmo tempo o desempenho fora da distribuição. Nossa análise mostra ainda que o conhecimento experiencial extraído é significativamente mais eficaz do que as trajetórias brutas e que a consistência on-policy entre a fonte de conhecimento e o modelo de política é crítica para uma aprendizagem eficaz.

English

The prevailing paradigm for improving large language models relies on offline training with human annotations or simulated environments, leaving the rich experience accumulated during real-world deployment entirely unexploited. We propose Online Experiential Learning (OEL), a framework that enables language models to continuously improve from their own deployment experience. OEL operates in two stages: first, transferable experiential knowledge is extracted and accumulated from interaction trajectories collected on the user side; second, this knowledge is consolidated into model parameters via on-policy context distillation, requiring no access to the user-side environment. The two stages are iterated to form an online learning loop, where the improved model collects higher-quality trajectories that yield richer experiential knowledge for subsequent rounds. We evaluate OEL on text-based game environments across multiple model scales and both thinking and non-thinking variants. OEL achieves consistent improvements over successive iterations, enhancing both task accuracy and token efficiency while preserving out-of-distribution performance. Our analysis further shows that extracted experiential knowledge is significantly more effective than raw trajectories, and that on-policy consistency between the knowledge source and the policy model is critical for effective learning.

Aprendizagem Experiencial Online para Modelos de Linguagem

Online Experiential Learning for Language Models

Resumo

Support