Aprendizaje Experiencial en Línea para Modelos de Lenguaje

Resumen

El paradigma predominante para mejorar los modelos de lenguaje a gran escala se basa en el entrenamiento offline con anotaciones humanas o entornos simulados, dejando sin explotar por completo la rica experiencia acumulada durante el despliegue en el mundo real. Proponemos el Aprendizaje Experiencial en Línea (OEL, por sus siglas en inglés), un marco que permite a los modelos de lenguaje mejorar continuamente a partir de su propia experiencia de despliegue. OEL opera en dos etapas: primero, se extrae y acumula conocimiento experiencial transferible de las trayectorias de interacción recopiladas en el lado del usuario; segundo, este conocimiento se consolida en los parámetros del modelo mediante destilación contextual *on-policy*, sin requerir acceso al entorno del usuario. Las dos etapas se iteran para formar un bucle de aprendizaje en línea, donde el modelo mejorado recopila trayectorias de mayor calidad que generan un conocimiento experiencial más rico para rondas posteriores. Evaluamos OEL en entornos de juegos basados en texto a través de múltiples escalas de modelos y variantes tanto con razonamiento como sin él. OEL logra mejoras consistentes a lo largo de iteraciones sucesivas, mejorando tanto la precisión de la tarea como la eficiencia de tokens, al tiempo que preserva el rendimiento fuera de distribución. Nuestro análisis muestra además que el conocimiento experiencial extraído es significativamente más efectivo que las trayectorias brutas, y que la consistencia *on-policy* entre la fuente de conocimiento y el modelo de política es crítica para un aprendizaje efectivo.

English

The prevailing paradigm for improving large language models relies on offline training with human annotations or simulated environments, leaving the rich experience accumulated during real-world deployment entirely unexploited. We propose Online Experiential Learning (OEL), a framework that enables language models to continuously improve from their own deployment experience. OEL operates in two stages: first, transferable experiential knowledge is extracted and accumulated from interaction trajectories collected on the user side; second, this knowledge is consolidated into model parameters via on-policy context distillation, requiring no access to the user-side environment. The two stages are iterated to form an online learning loop, where the improved model collects higher-quality trajectories that yield richer experiential knowledge for subsequent rounds. We evaluate OEL on text-based game environments across multiple model scales and both thinking and non-thinking variants. OEL achieves consistent improvements over successive iterations, enhancing both task accuracy and token efficiency while preserving out-of-distribution performance. Our analysis further shows that extracted experiential knowledge is significantly more effective than raw trajectories, and that on-policy consistency between the knowledge source and the policy model is critical for effective learning.

Aprendizaje Experiencial en Línea para Modelos de Lenguaje

Online Experiential Learning for Language Models

Resumen

Support