Werkzeugverifikation für Testzeit-Verstärkungslernen

Zusammenfassung

Test-Time Reinforcement Learning (TTRL) hat sich als vielversprechendes Paradigma für sich selbst weiterentwickelnde große Reasoning-Modelle (LRMs) etabliert, das eine Online-Anpassung an ungelabelten Testeingaben über selbstgenerierte Belohnungen durch Mehrheitsentscheid ermöglicht. Ein trügerischer, jedoch hochfrequenter ungeprüfter Konsens kann jedoch zu einem verzerrten und verstärkten Belohnungssignal werden, was zu einem fehlerhaften Mode Collapse führt. Wir adressieren diesen Fehlermodus mit T³RL (Tool-Verification for Test-Time Reinforcement Learning), das eine Test-Time-Toolverifikation in die Belohnungsschätzung einführt. Konkret verwendet ein Verifizierer ein externes Tool als Evidenz (z.B. durch Code-Ausführung), um verifizierte Rollouts in einer verifikationsbasierten Abstimmung höher zu gewichten, wodurch zuverlässigere Pseudo-Labels für das Training erzeugt werden. Über verschiedene Schwierigkeitsgrade in Mathematik (MATH-500, AMC und AIME 2024) und diverse Backbone-Typen hinweg verbessert T³RL die Leistung von TTRL signifikant, mit größeren Gewinnen bei schwierigeren Problemen. Im weiteren Sinne kann T³RL als verifizierte Online-Datensynthese betrachtet werden, was Test-Time-Toolverifikation als einen Schlüsselmechanismus zur Stabilisierung der Selbstevolution hervorhebt.

English

Test-time reinforcement learning (TTRL) has emerged as a promising paradigm for self-evolving large reasoning models (LRMs), enabling online adaptation on unlabeled test inputs via self-induced rewards through majority voting. However, a spurious yet high-frequency unverified consensus can become a biased and reinforced reward signal, leading to incorrect mode collapse. We address this failure mode with T^3RL (Tool-Verification for Test-Time Reinforcement Learning), which introduces test-time tool verification into reward estimation. Concretely, a verifier uses an external tool as evidence (e.g., from code execution) to upweight verified rollouts in a verification-aware voting, producing more reliable pseudo-labels for training. Across various math difficulties (MATH-500, AMC, and AIME 2024) and diverse backbone types, T^3RL significantly improves over TTRL, with larger gains on harder problems. More broadly, T^3RL can be viewed as verified online data synthesis, highlighting test-time tool verification as a key mechanism for stabilizing self-evolution.

Werkzeugverifikation für Testzeit-Verstärkungslernen

Tool Verification for Test-Time Reinforcement Learning

Zusammenfassung

Support