ChatPaper.aiChatPaper

LSPO: Amostragem Dinâmica com Consciência de Comprimento para Otimização de Políticas em Raciocínio de LLM

LSPO: Length-aware Dynamic Sampling for Policy Optimization in LLM Reasoning

October 1, 2025
Autores: Weizhe Chen, Sven Koenig, Bistra Dilkina
cs.AI

Resumo

Desde o lançamento do Deepseek-R1, o aprendizado por reforço com recompensas verificáveis (RLVR) tornou-se uma abordagem central para o treinamento de grandes modelos de linguagem (LLMs) em tarefas de raciocínio. Trabalhos recentes têm se concentrado principalmente em modificar funções de perda para tornar o RLVR mais eficiente e eficaz. Neste artigo, motivados por estudos sobre "overthinking" em LLMs, propomos o Length-aware Sampling for Policy Optimization (LSPO), um novo algoritmo meta-RLVR que seleciona dinamicamente os dados de treinamento em cada etapa com base no comprimento médio da resposta. Avaliamos o LSPO em vários modelos base e conjuntos de dados, demonstrando que ele melhora consistentemente a eficácia do aprendizado. Além disso, realizamos um estudo detalhado de ablação para examinar formas alternativas de incorporar sinais de comprimento na amostragem dinâmica, oferecendo insights adicionais e destacando direções promissoras para pesquisas futuras.
English
Since the release of Deepseek-R1, reinforcement learning with verifiable rewards (RLVR) has become a central approach for training large language models (LLMs) on reasoning tasks. Recent work has largely focused on modifying loss functions to make RLVR more efficient and effective. In this paper, motivated by studies of overthinking in LLMs, we propose Length-aware Sampling for Policy Optimization (LSPO), a novel meta-RLVR algorithm that dynamically selects training data at each step based on the average response length. We evaluate LSPO across multiple base models and datasets, demonstrating that it consistently improves learning effectiveness. In addition, we conduct a detailed ablation study to examine alternative ways of incorporating length signals into dynamic sampling, offering further insights and highlighting promising directions for future research.
PDF32October 6, 2025