ChatPaper.aiChatPaper

Prosperidade antes do Colapso: Até Onde o Aprendizado por Reforço Off-Policy Pode Chegar com Dados Desatualizados em LLMs?

Prosperity before Collapse: How Far Can Off-Policy RL Reach with Stale Data on LLMs?

October 1, 2025
Autores: Haizhong Zheng, Jiawei Zhao, Bedi Chen
cs.AI

Resumo

O aprendizado por reforço tem sido central para os avanços recentes no raciocínio de modelos de linguagem de grande escala, mas a maioria dos algoritmos depende de treinamento on-policy que exige novas execuções a cada atualização, limitando a eficiência e a escalabilidade. Sistemas de RL assíncronos aliviam isso ao desacoplar a geração de execuções do treinamento, mas sua eficácia depende da tolerância a grandes defasagens nos dados de execução, um cenário onde os métodos existentes ou degradam em desempenho ou colapsam. Revisitamos esse desafio e descobrimos um fenômeno de prosperidade antes do colapso: dados defasados podem ser tão informativos quanto dados on-policy se explorados adequadamente. Com base nessa percepção, introduzimos o M2PO (Second-Moment Trust Policy Optimization), que restringe o segundo momento dos pesos de importância para suprimir apenas outliers extremos, preservando atualizações informativas. Notavelmente, o M2PO reduz drasticamente a fração de tokens cortados sob alta defasagem (de 1,22% para 0,06% durante o treinamento), mascarando precisamente tokens de alta variância enquanto mantém uma otimização estável. Uma avaliação extensa em seis modelos (de 1,7B a 32B) e oito benchmarks mostra que o M2PO oferece treinamento off-policy estável mesmo com dados defasados por pelo menos 256 atualizações do modelo e iguala o desempenho on-policy.
English
Reinforcement learning has been central to recent advances in large language model reasoning, but most algorithms rely on on-policy training that demands fresh rollouts at every update, limiting efficiency and scalability. Asynchronous RL systems alleviate this by decoupling rollout generation from training, yet their effectiveness hinges on tolerating large staleness in rollout data, a setting where existing methods either degrade in performance or collapse. We revisit this challenge and uncover a prosperity-before-collapse phenomenon: stale data can be as informative as on-policy data if exploited properly. Building on this insight, we introduce M2PO (Second-Moment Trust Policy Optimization), which constrains the second moment of importance weights to suppress only extreme outliers while preserving informative updates. Notably, M2PO sharply reduces the fraction of clipped tokens under high staleness (from 1.22% to 0.06% over training), precisely masking high-variance tokens while maintaining stable optimization. Extensive evaluation across six models (from 1.7B to 32B) and eight benchmarks shows that M2PO delivers stable off-policy training even with data stale by at least 256 model updates and matches on-policy performance.
PDF122October 7, 2025