Permanecendo no Ponto Ideal: Evolução do Raciocínio Responsivo por meio de Andamento Adaptativo de Dicas Baseado em Capacidade
Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding
September 8, 2025
Autores: Ziheng Li, Zexu Sun, Jinman Zhao, Erxue Min, Yongcheng Zeng, Hui Wu, Hengyi Cai, Shuaiqiang Wang, Dawei Yin, Xu Chen, Zhi-Hong Deng
cs.AI
Resumo
O aprendizado por reforço com recompensas verificáveis (RLVR) alcançou sucesso notável em aprimorar as capacidades de raciocínio de modelos de linguagem de grande escala (LLMs). No entanto, os métodos existentes de RLVR frequentemente sofrem com ineficiência de exploração devido a descompassos entre a dificuldade dos dados de treinamento e a capacidade do modelo. Os LLMs falham em descobrir caminhos de raciocínio viáveis quando os problemas são excessivamente difíceis, enquanto aprendem pouca capacidade nova quando os problemas são muito simples. Neste trabalho, formalizamos o impacto da dificuldade do problema ao quantificar a relação entre a velocidade de descida da perda e a precisão do rollout. Com base nessa análise, propomos o SEELE, uma nova estrutura de RLVR assistida por supervisão que ajusta dinamicamente a dificuldade do problema para permanecer na região de alta eficiência. O SEELE aumenta cada amostra de treinamento ao anexar uma dica (parte de uma solução completa) após o problema original. Diferente de abordagens anteriores baseadas em dicas, o SEELE ajusta deliberada e adaptativamente o comprimento da dica para cada problema a fim de alcançar uma dificuldade ótima. Para determinar o comprimento ideal da dica, o SEELE emprega uma estratégia de amostragem de rollout em múltiplas rodadas. Em cada rodada, ele ajusta um modelo de teoria de resposta ao item aos pares precisão-dica coletados nas rodadas anteriores para prever o comprimento necessário da dica para a próxima rodada. Esse ajuste de dificuldade em tempo real e no nível da instância alinha a dificuldade do problema com a capacidade evolutiva do modelo, melhorando assim a eficiência da exploração. Resultados experimentais mostram que o SEELE supera a Otimização de Política Relativa de Grupo (GRPO) e o Ajuste Fino Supervisionado (SFT) em +11,8 e +10,5 pontos, respectivamente, e ultrapassa a melhor abordagem assistida por supervisão anterior em +3,6 pontos em média em seis benchmarks de raciocínio matemático.
English
Reinforcement learning with verifiable rewards (RLVR) has achieved remarkable
success in enhancing the reasoning capabilities of large language models
(LLMs). However, existing RLVR methods often suffer from exploration
inefficiency due to mismatches between the training data's difficulty and the
model's capability. LLMs fail to discover viable reasoning paths when problems
are overly difficult, while learning little new capability when problems are
too simple. In this work, we formalize the impact of problem difficulty by
quantifying the relationship between loss descent speed and rollout accuracy.
Building on this analysis, we propose SEELE, a novel supervision-aided RLVR
framework that dynamically adjusts problem difficulty to stay within the
high-efficiency region. SEELE augments each training sample by appending a hint
(part of a full solution) after the original problem. Unlike previous
hint-based approaches, SEELE deliberately and adaptively adjusts the hint
length for each problem to achieve an optimal difficulty. To determine the
optimal hint length, SEELE employs a multi-round rollout sampling strategy. In
each round, it fits an item response theory model to the accuracy-hint pairs
collected in preceding rounds to predict the required hint length for the next
round. This instance-level, real-time difficulty adjustment aligns problem
difficulty with the evolving model capability, thereby improving exploration
efficiency. Experimental results show that SEELE outperforms Group Relative
Policy Optimization (GRPO) and Supervised Fine-tuning (SFT) by +11.8 and +10.5
points, respectively, and surpasses the best previous supervision-aided
approach by +3.6 points on average across six math reasoning benchmarks.