Rimanere nel Punto Ottimale: Evoluzione del Ragionamento Reattivo attraverso un'Impalcatura di Suggerimenti Adattivi alle Capacità
Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding
September 8, 2025
Autori: Ziheng Li, Zexu Sun, Jinman Zhao, Erxue Min, Yongcheng Zeng, Hui Wu, Hengyi Cai, Shuaiqiang Wang, Dawei Yin, Xu Chen, Zhi-Hong Deng
cs.AI
Abstract
L'apprendimento per rinforzo con ricompense verificabili (RLVR) ha ottenuto un successo notevole nel potenziare le capacità di ragionamento dei grandi modelli linguistici (LLM). Tuttavia, i metodi RLVR esistenti spesso soffrono di inefficienza nell'esplorazione a causa di disallineamenti tra la difficoltà dei dati di addestramento e le capacità del modello. Gli LLM non riescono a scoprire percorsi di ragionamento validi quando i problemi sono eccessivamente difficili, mentre apprendono poche nuove capacità quando i problemi sono troppo semplici. In questo lavoro, formalizziamo l'impatto della difficoltà dei problemi quantificando la relazione tra la velocità di discesa della perdita e l'accuratezza dei rollout. Basandoci su questa analisi, proponiamo SEELE, un nuovo framework RLVR assistito da supervisione che regola dinamicamente la difficoltà dei problemi per rimanere nella regione ad alta efficienza. SEELE arricchisce ogni campione di addestramento aggiungendo un suggerimento (parte di una soluzione completa) dopo il problema originale. A differenza degli approcci basati su suggerimenti precedenti, SEELE regola in modo deliberato e adattivo la lunghezza del suggerimento per ogni problema per raggiungere una difficoltà ottimale. Per determinare la lunghezza ottimale del suggerimento, SEELE utilizza una strategia di campionamento a più round. In ogni round, adatta un modello di teoria della risposta all'item alle coppie accuratezza-suggerimento raccolte nei round precedenti per prevedere la lunghezza del suggerimento richiesta per il round successivo. Questa regolazione della difficoltà a livello di istanza e in tempo reale allinea la difficoltà dei problemi con l'evoluzione delle capacità del modello, migliorando così l'efficienza dell'esplorazione. I risultati sperimentali mostrano che SEELE supera l'ottimizzazione relativa delle politiche di gruppo (GRPO) e il fine-tuning supervisionato (SFT) rispettivamente di +11,8 e +10,5 punti, e supera il miglior approccio assistito da supervisione precedente di +3,6 punti in media su sei benchmark di ragionamento matematico.
English
Reinforcement learning with verifiable rewards (RLVR) has achieved remarkable
success in enhancing the reasoning capabilities of large language models
(LLMs). However, existing RLVR methods often suffer from exploration
inefficiency due to mismatches between the training data's difficulty and the
model's capability. LLMs fail to discover viable reasoning paths when problems
are overly difficult, while learning little new capability when problems are
too simple. In this work, we formalize the impact of problem difficulty by
quantifying the relationship between loss descent speed and rollout accuracy.
Building on this analysis, we propose SEELE, a novel supervision-aided RLVR
framework that dynamically adjusts problem difficulty to stay within the
high-efficiency region. SEELE augments each training sample by appending a hint
(part of a full solution) after the original problem. Unlike previous
hint-based approaches, SEELE deliberately and adaptively adjusts the hint
length for each problem to achieve an optimal difficulty. To determine the
optimal hint length, SEELE employs a multi-round rollout sampling strategy. In
each round, it fits an item response theory model to the accuracy-hint pairs
collected in preceding rounds to predict the required hint length for the next
round. This instance-level, real-time difficulty adjustment aligns problem
difficulty with the evolving model capability, thereby improving exploration
efficiency. Experimental results show that SEELE outperforms Group Relative
Policy Optimization (GRPO) and Supervised Fine-tuning (SFT) by +11.8 and +10.5
points, respectively, and surpasses the best previous supervision-aided
approach by +3.6 points on average across six math reasoning benchmarks.