Manteniéndose en el Punto Óptimo: Evolución del Razonamiento Responsivo mediante Andamiaje de Pistas Adaptadas a la Capacidad
Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding
September 8, 2025
Autores: Ziheng Li, Zexu Sun, Jinman Zhao, Erxue Min, Yongcheng Zeng, Hui Wu, Hengyi Cai, Shuaiqiang Wang, Dawei Yin, Xu Chen, Zhi-Hong Deng
cs.AI
Resumen
El aprendizaje por refuerzo con recompensas verificables (RLVR, por sus siglas en inglés) ha logrado un éxito notable al mejorar las capacidades de razonamiento de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés). Sin embargo, los métodos existentes de RLVR a menudo sufren de ineficiencia en la exploración debido a desajustes entre la dificultad de los datos de entrenamiento y la capacidad del modelo. Los LLMs no logran descubrir caminos de razonamiento viables cuando los problemas son excesivamente difíciles, mientras que aprenden poco nueva capacidad cuando los problemas son demasiado simples. En este trabajo, formalizamos el impacto de la dificultad del problema al cuantificar la relación entre la velocidad de descenso de la pérdida y la precisión de las ejecuciones. Basándonos en este análisis, proponemos SEELE, un marco novedoso de RLVR asistido por supervisión que ajusta dinámicamente la dificultad del problema para mantenerse dentro de la región de alta eficiencia. SEELE aumenta cada muestra de entrenamiento al agregar una pista (parte de una solución completa) después del problema original. A diferencia de enfoques anteriores basados en pistas, SEELE ajusta deliberada y adaptativamente la longitud de la pista para cada problema con el fin de lograr una dificultad óptima. Para determinar la longitud óptima de la pista, SEELE emplea una estrategia de muestreo de ejecuciones en múltiples rondas. En cada ronda, ajusta un modelo de teoría de respuesta al ítem a los pares precisión-pista recopilados en rondas anteriores para predecir la longitud de pista requerida en la siguiente ronda. Este ajuste de dificultad a nivel de instancia y en tiempo real alinea la dificultad del problema con la capacidad evolutiva del modelo, mejorando así la eficiencia de la exploración. Los resultados experimentales muestran que SEELE supera a la Optimización de Política Relativa de Grupo (GRPO, por sus siglas en inglés) y al Ajuste Fino Supervisado (SFT, por sus siglas en inglés) en +11.8 y +10.5 puntos, respectivamente, y supera al mejor enfoque anterior asistido por supervisión en +3.6 puntos en promedio en seis benchmarks de razonamiento matemático.
English
Reinforcement learning with verifiable rewards (RLVR) has achieved remarkable
success in enhancing the reasoning capabilities of large language models
(LLMs). However, existing RLVR methods often suffer from exploration
inefficiency due to mismatches between the training data's difficulty and the
model's capability. LLMs fail to discover viable reasoning paths when problems
are overly difficult, while learning little new capability when problems are
too simple. In this work, we formalize the impact of problem difficulty by
quantifying the relationship between loss descent speed and rollout accuracy.
Building on this analysis, we propose SEELE, a novel supervision-aided RLVR
framework that dynamically adjusts problem difficulty to stay within the
high-efficiency region. SEELE augments each training sample by appending a hint
(part of a full solution) after the original problem. Unlike previous
hint-based approaches, SEELE deliberately and adaptively adjusts the hint
length for each problem to achieve an optimal difficulty. To determine the
optimal hint length, SEELE employs a multi-round rollout sampling strategy. In
each round, it fits an item response theory model to the accuracy-hint pairs
collected in preceding rounds to predict the required hint length for the next
round. This instance-level, real-time difficulty adjustment aligns problem
difficulty with the evolving model capability, thereby improving exploration
efficiency. Experimental results show that SEELE outperforms Group Relative
Policy Optimization (GRPO) and Supervised Fine-tuning (SFT) by +11.8 and +10.5
points, respectively, and surpasses the best previous supervision-aided
approach by +3.6 points on average across six math reasoning benchmarks.