ChatPaper.aiChatPaper

Rester dans la Zone Optimale : Évolution Réactive du Raisonnement via un Échafaudage d'Indices Adapté aux Capacités

Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding

September 8, 2025
papers.authors: Ziheng Li, Zexu Sun, Jinman Zhao, Erxue Min, Yongcheng Zeng, Hui Wu, Hengyi Cai, Shuaiqiang Wang, Dawei Yin, Xu Chen, Zhi-Hong Deng
cs.AI

papers.abstract

L'apprentissage par renforcement avec récompenses vérifiables (RLVR) a obtenu un succès remarquable dans l'amélioration des capacités de raisonnement des grands modèles de langage (LLM). Cependant, les méthodes RLVR existantes souffrent souvent d'une inefficacité d'exploration due à des inadéquations entre la difficulté des données d'entraînement et les capacités du modèle. Les LLM échouent à découvrir des chemins de raisonnement viables lorsque les problèmes sont trop difficiles, tout en apprenant peu de nouvelles capacités lorsque les problèmes sont trop simples. Dans ce travail, nous formalisons l'impact de la difficulté des problèmes en quantifiant la relation entre la vitesse de descente de la perte et la précision des déploiements. Sur la base de cette analyse, nous proposons SEELE, un nouveau cadre RLVR assisté par supervision qui ajuste dynamiquement la difficulté des problèmes pour rester dans la région de haute efficacité. SEELE enrichit chaque échantillon d'entraînement en ajoutant un indice (une partie d'une solution complète) après le problème original. Contrairement aux approches précédentes basées sur des indices, SEELE ajuste délibérément et de manière adaptative la longueur de l'indice pour chaque problème afin d'atteindre une difficulté optimale. Pour déterminer la longueur optimale de l'indice, SEELE utilise une stratégie d'échantillonnage de déploiement en plusieurs tours. À chaque tour, il ajuste un modèle de théorie de réponse à l'item aux paires précision-indice collectées dans les tours précédents pour prédire la longueur d'indice requise pour le tour suivant. Cet ajustement de la difficulté au niveau de l'instance et en temps réel aligne la difficulté des problèmes avec les capacités évolutives du modèle, améliorant ainsi l'efficacité de l'exploration. Les résultats expérimentaux montrent que SEELE surpasse l'optimisation de politique relative par groupe (GRPO) et le réglage fin supervisé (SFT) de +11,8 et +10,5 points respectivement, et dépasse la meilleure approche précédente assistée par supervision de +3,6 points en moyenne sur six benchmarks de raisonnement mathématique.
English
Reinforcement learning with verifiable rewards (RLVR) has achieved remarkable success in enhancing the reasoning capabilities of large language models (LLMs). However, existing RLVR methods often suffer from exploration inefficiency due to mismatches between the training data's difficulty and the model's capability. LLMs fail to discover viable reasoning paths when problems are overly difficult, while learning little new capability when problems are too simple. In this work, we formalize the impact of problem difficulty by quantifying the relationship between loss descent speed and rollout accuracy. Building on this analysis, we propose SEELE, a novel supervision-aided RLVR framework that dynamically adjusts problem difficulty to stay within the high-efficiency region. SEELE augments each training sample by appending a hint (part of a full solution) after the original problem. Unlike previous hint-based approaches, SEELE deliberately and adaptively adjusts the hint length for each problem to achieve an optimal difficulty. To determine the optimal hint length, SEELE employs a multi-round rollout sampling strategy. In each round, it fits an item response theory model to the accuracy-hint pairs collected in preceding rounds to predict the required hint length for the next round. This instance-level, real-time difficulty adjustment aligns problem difficulty with the evolving model capability, thereby improving exploration efficiency. Experimental results show that SEELE outperforms Group Relative Policy Optimization (GRPO) and Supervised Fine-tuning (SFT) by +11.8 and +10.5 points, respectively, and surpasses the best previous supervision-aided approach by +3.6 points on average across six math reasoning benchmarks.
PDF172September 10, 2025