ChatPaper.aiChatPaper

Permanecendo no Ponto Ideal: Evolução do Raciocínio Responsivo por meio de Andamento Adaptativo de Dicas Baseado em Capacidade

Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding

September 8, 2025
Autores: Ziheng Li, Zexu Sun, Jinman Zhao, Erxue Min, Yongcheng Zeng, Hui Wu, Hengyi Cai, Shuaiqiang Wang, Dawei Yin, Xu Chen, Zhi-Hong Deng
cs.AI

Resumo

O aprendizado por reforço com recompensas verificáveis (RLVR) alcançou sucesso notável em aprimorar as capacidades de raciocínio de modelos de linguagem de grande escala (LLMs). No entanto, os métodos existentes de RLVR frequentemente sofrem com ineficiência de exploração devido a descompassos entre a dificuldade dos dados de treinamento e a capacidade do modelo. Os LLMs falham em descobrir caminhos de raciocínio viáveis quando os problemas são excessivamente difíceis, enquanto aprendem pouca capacidade nova quando os problemas são muito simples. Neste trabalho, formalizamos o impacto da dificuldade do problema ao quantificar a relação entre a velocidade de descida da perda e a precisão do rollout. Com base nessa análise, propomos o SEELE, uma nova estrutura de RLVR assistida por supervisão que ajusta dinamicamente a dificuldade do problema para permanecer na região de alta eficiência. O SEELE aumenta cada amostra de treinamento ao anexar uma dica (parte de uma solução completa) após o problema original. Diferente de abordagens anteriores baseadas em dicas, o SEELE ajusta deliberada e adaptativamente o comprimento da dica para cada problema a fim de alcançar uma dificuldade ótima. Para determinar o comprimento ideal da dica, o SEELE emprega uma estratégia de amostragem de rollout em múltiplas rodadas. Em cada rodada, ele ajusta um modelo de teoria de resposta ao item aos pares precisão-dica coletados nas rodadas anteriores para prever o comprimento necessário da dica para a próxima rodada. Esse ajuste de dificuldade em tempo real e no nível da instância alinha a dificuldade do problema com a capacidade evolutiva do modelo, melhorando assim a eficiência da exploração. Resultados experimentais mostram que o SEELE supera a Otimização de Política Relativa de Grupo (GRPO) e o Ajuste Fino Supervisionado (SFT) em +11,8 e +10,5 pontos, respectivamente, e ultrapassa a melhor abordagem assistida por supervisão anterior em +3,6 pontos em média em seis benchmarks de raciocínio matemático.
English
Reinforcement learning with verifiable rewards (RLVR) has achieved remarkable success in enhancing the reasoning capabilities of large language models (LLMs). However, existing RLVR methods often suffer from exploration inefficiency due to mismatches between the training data's difficulty and the model's capability. LLMs fail to discover viable reasoning paths when problems are overly difficult, while learning little new capability when problems are too simple. In this work, we formalize the impact of problem difficulty by quantifying the relationship between loss descent speed and rollout accuracy. Building on this analysis, we propose SEELE, a novel supervision-aided RLVR framework that dynamically adjusts problem difficulty to stay within the high-efficiency region. SEELE augments each training sample by appending a hint (part of a full solution) after the original problem. Unlike previous hint-based approaches, SEELE deliberately and adaptively adjusts the hint length for each problem to achieve an optimal difficulty. To determine the optimal hint length, SEELE employs a multi-round rollout sampling strategy. In each round, it fits an item response theory model to the accuracy-hint pairs collected in preceding rounds to predict the required hint length for the next round. This instance-level, real-time difficulty adjustment aligns problem difficulty with the evolving model capability, thereby improving exploration efficiency. Experimental results show that SEELE outperforms Group Relative Policy Optimization (GRPO) and Supervised Fine-tuning (SFT) by +11.8 and +10.5 points, respectively, and surpasses the best previous supervision-aided approach by +3.6 points on average across six math reasoning benchmarks.
PDF182September 10, 2025