Verifica degli Strumenti per l'Apprendimento per Rinforzo al Momento del Test

Abstract

L'apprendimento per rinforzo al momento del test (TTRL) è emerso come un paradigma promettente per l'auto-evoluzione di grandi modelli di ragionamento (LRM), consentendo l'adattamento online su input di test non etichettati tramite ricompense auto-indotte attraverso un voto a maggioranza. Tuttavia, un consenso non verificato, spurio ma ad alta frequenza, può diventare un segnale di ricompensa distorto e rinforzato, portando a un collasso modale errato. Affrontiamo questa modalità di fallimento con T³RL (Tool-Verification for Test-Time Reinforcement Learning), che introduce la verifica strumentale al momento del test nella stima della ricompensa. Nello specifico, un verificatore utilizza uno strumento esterno come evidenza (ad esempio, dall'esecuzione di codice) per aumentare il peso dei rollout verificati in un voto consapevole della verifica, producendo pseudo-etichette più affidabili per l'addestramento. In varie difficoltà matematiche (MATH-500, AMC e AIME 2024) e con diversi tipi di modelli di base, T³RL migliora significativamente rispetto al TTRL, con guadagni maggiori su problemi più difficili. Più in generale, T³RL può essere visto come una sintesi di dati online verificata, evidenziando la verifica strumentale al momento del test come un meccanismo chiave per stabilizzare l'auto-evoluzione.

English

Test-time reinforcement learning (TTRL) has emerged as a promising paradigm for self-evolving large reasoning models (LRMs), enabling online adaptation on unlabeled test inputs via self-induced rewards through majority voting. However, a spurious yet high-frequency unverified consensus can become a biased and reinforced reward signal, leading to incorrect mode collapse. We address this failure mode with T^3RL (Tool-Verification for Test-Time Reinforcement Learning), which introduces test-time tool verification into reward estimation. Concretely, a verifier uses an external tool as evidence (e.g., from code execution) to upweight verified rollouts in a verification-aware voting, producing more reliable pseudo-labels for training. Across various math difficulties (MATH-500, AMC, and AIME 2024) and diverse backbone types, T^3RL significantly improves over TTRL, with larger gains on harder problems. More broadly, T^3RL can be viewed as verified online data synthesis, highlighting test-time tool verification as a key mechanism for stabilizing self-evolution.

Verifica degli Strumenti per l'Apprendimento per Rinforzo al Momento del Test

Tool Verification for Test-Time Reinforcement Learning

Abstract

Support