ChatPaper.aiChatPaper

언어 모델을 위한 온라인 체험 학습

Online Experiential Learning for Language Models

March 17, 2026
저자: Tianzhu Ye, Li Dong, Qingxiu Dong, Xun Wu, Shaohan Huang, Furu Wei
cs.AI

초록

대규모 언어 모델을 개선하기 위한 기존 패러다임은 인간의 주석이나 시뮬레이션 환경을 활용한 오프라인 학습에 의존하여, 실제 배포 과정에서 누적된 풍부한 경험을 전혀 활용하지 못하고 있습니다. 본 연구에서는 언어 모델이 자체 배포 경험으로부터 지속적으로 개선될 수 있도록 하는 온라인 체험 학습(OEL) 프레임워크를 제안합니다. OEL은 두 단계로 운영됩니다. 첫째, 사용자 측에서 수집된 상호작용 트레이젝토리로부터 전이 가능한 체험적 지식을 추출 및 축적합니다. 둘째, 온-정책 컨텍스트 증류를 통해 이 지식을 모델 파라미터에 통합하며, 이 과정에서 사용자 측 환경에 대한 접근이 필요하지 않습니다. 이 두 단계는 반복되어 온라인 학습 루프를 형성하며, 개선된 모델은 더 높은 품질의 트레이젝토리를 수집하여 후속 라운드에 더 풍부한 체험적 지식을 제공합니다. 우리는 다양한 모델 규모와 사고/비사고 변형 모델에 걸쳐 텍스트 기반 게임 환경에서 OEL을 평가했습니다. OEL은 연속적인 반복을 통해 일관된 성능 향상을 달성하며, 작업 정확도와 토큰 효율성을 동시에 높이고 분포 외 성능을 보존했습니다. 우리의 분석은 추가적으로 추출된 체험적 지인이 원본 트레이젝토리보다 훨씬 더 효과적이며, 지식 원천과 정책 모델 간의 온-정책 일관성이 효과적인 학습에 중요함을 보여줍니다.
English
The prevailing paradigm for improving large language models relies on offline training with human annotations or simulated environments, leaving the rich experience accumulated during real-world deployment entirely unexploited. We propose Online Experiential Learning (OEL), a framework that enables language models to continuously improve from their own deployment experience. OEL operates in two stages: first, transferable experiential knowledge is extracted and accumulated from interaction trajectories collected on the user side; second, this knowledge is consolidated into model parameters via on-policy context distillation, requiring no access to the user-side environment. The two stages are iterated to form an online learning loop, where the improved model collects higher-quality trajectories that yield richer experiential knowledge for subsequent rounds. We evaluate OEL on text-based game environments across multiple model scales and both thinking and non-thinking variants. OEL achieves consistent improvements over successive iterations, enhancing both task accuracy and token efficiency while preserving out-of-distribution performance. Our analysis further shows that extracted experiential knowledge is significantly more effective than raw trajectories, and that on-policy consistency between the knowledge source and the policy model is critical for effective learning.
PDF433March 19, 2026