Онлайн-обучение через опыт для языковых моделей

Аннотация

Преобладающая парадигма улучшения больших языковых моделей основывается на офлайн-обучении с использованием человеческих аннотаций или симулированных сред, что полностью оставляет неиспользованным богатый опыт, накопленный в ходе реального развертывания. Мы предлагаем Онлайн-обучение на основе опыта (Online Experiential Learning, OEL) — фреймворк, который позволяет языковым моделям непрерывно совершенствоваться на основе опыта их собственного применения. OEL работает в два этапа: сначала передаваемое знание, основанное на опыте, извлекается и накапливается из траекторий взаимодействия, собранных на стороне пользователя; затем это знание закрепляется в параметрах модели с помощью контекстной дистилляции на основе текущей политики, что не требует доступа к среде на стороне пользователя. Эти два этапа итеративно повторяются, формируя цикл онлайн-обучения, в котором улучшенная модель собирает более качественные траектории, которые, в свою очередь, дают более богатый опыт для последующих раундов. Мы оцениваем OEL в текстовых игровых средах на моделях различного масштаба, как с механизмом "рассуждений", так и без него. OEL демонстрирует последовательное улучшение по мере итераций, повышая как точность выполнения задач, так и эффективность использования токенов, при этом сохраняя производительность на данных вне распределения. Наш анализ дополнительно показывает, что извлеченное знание на основе опыта значительно эффективнее сырых траекторий, а соответствие политики между источником знаний и обучаемой моделью критически важно для эффективного обучения.

English

The prevailing paradigm for improving large language models relies on offline training with human annotations or simulated environments, leaving the rich experience accumulated during real-world deployment entirely unexploited. We propose Online Experiential Learning (OEL), a framework that enables language models to continuously improve from their own deployment experience. OEL operates in two stages: first, transferable experiential knowledge is extracted and accumulated from interaction trajectories collected on the user side; second, this knowledge is consolidated into model parameters via on-policy context distillation, requiring no access to the user-side environment. The two stages are iterated to form an online learning loop, where the improved model collects higher-quality trajectories that yield richer experiential knowledge for subsequent rounds. We evaluate OEL on text-based game environments across multiple model scales and both thinking and non-thinking variants. OEL achieves consistent improvements over successive iterations, enhancing both task accuracy and token efficiency while preserving out-of-distribution performance. Our analysis further shows that extracted experiential knowledge is significantly more effective than raw trajectories, and that on-policy consistency between the knowledge source and the policy model is critical for effective learning.

Онлайн-обучение через опыт для языковых моделей

Online Experiential Learning for Language Models

Аннотация

Support