Gereedschapsverificatie voor Reinforcement Learning tijdens Testen

Samenvatting

Test-time reinforcement learning (TTRL) is naar voren gekomen als een veelbelovend paradigma voor zelf-evoluerende grote redeneermodellen (LRM's), waarmee online aanpassing op ongelabelde testinputs mogelijk wordt via zelf-geïnduceerde beloningen door middel van meerderheidsstemming. Een onterechte maar hoogfrequente, onverifieerde consensus kan echter een bevooroordeeld en versterkt beloningssignaal worden, wat leidt tot incorrecte mode-collaps. Wij pakken deze faalwijze aan met T^3RL (Tool-Verification for Test-Time Reinforcement Learning), dat toolverificatie tijdens de testfase introduceert in de beloningsschatting. Concreet gebruikt een verifier een externe tool als bewijs (bijvoorbeeld van code-uitvoering) om geverifieerde rollouts zwaarder te laten meetellen in een verificatiebewuste stemming, wat betrouwbaardere pseudo-labels voor training oplevert. Over diverse wiskundeniveaus (MATH-500, AMC en AIME 2024) en verschillende backbone-typen heen, verbetert T^3RL significant ten opzichte van TTRL, met grotere vooruitgang op moeilijkere problemen. In bredere zin kan T^3RL worden gezien als geverifieerde online datasynthese, wat toolverificatie tijdens de testfase benadrukt als een sleutelmechanisme voor het stabiliseren van zelf-evolutie.

English

Test-time reinforcement learning (TTRL) has emerged as a promising paradigm for self-evolving large reasoning models (LRMs), enabling online adaptation on unlabeled test inputs via self-induced rewards through majority voting. However, a spurious yet high-frequency unverified consensus can become a biased and reinforced reward signal, leading to incorrect mode collapse. We address this failure mode with T^3RL (Tool-Verification for Test-Time Reinforcement Learning), which introduces test-time tool verification into reward estimation. Concretely, a verifier uses an external tool as evidence (e.g., from code execution) to upweight verified rollouts in a verification-aware voting, producing more reliable pseudo-labels for training. Across various math difficulties (MATH-500, AMC, and AIME 2024) and diverse backbone types, T^3RL significantly improves over TTRL, with larger gains on harder problems. More broadly, T^3RL can be viewed as verified online data synthesis, highlighting test-time tool verification as a key mechanism for stabilizing self-evolution.

Gereedschapsverificatie voor Reinforcement Learning tijdens Testen

Tool Verification for Test-Time Reinforcement Learning

Samenvatting

Support