Vérification d'outils pour l'apprentissage par renforcement en phase de test

Résumé

L'apprentissage par renforcement en phase de test (TTRL) est apparu comme un paradigme prometteur pour l'auto-évolution des grands modèles de raisonnement (LRM), permettant une adaptation en ligne sur des entrées de test non étiquetées via des récompenses auto-induites par vote majoritaire. Cependant, un consensus non vérifié, bien que sporadique et à haute fréquence, peut devenir un signal de récompense biaisé et renforcé, conduisant à un effondrement modal incorrect. Nous abordons ce mode de défaillance avec T^3RL (Vérification par Outil pour l'Apprentissage par Renforcement en Phase de Test), qui introduit une vérification par outil en phase de test dans l'estimation de la récompense. Concrètement, un vérificateur utilise un outil externe comme preuve (par exemple, via l'exécution de code) pour pondérer davantage les rollouts vérifiés dans un vote tenant compte de la vérification, produisant ainsi des pseudo-labels plus fiables pour l'entraînement. Sur diverses difficultés mathématiques (MATH-500, AMC et AIME 2024) et différents types de modèles de base, T^3RL améliore significativement les performances par rapport au TTRL, avec des gains plus importants sur les problèmes plus difficiles. Plus largement, T^3RL peut être considéré comme une synthèse de données en ligne vérifiée, mettant en lumière la vérification par outil en phase de test comme un mécanisme clé pour stabiliser l'auto-évolution.

English

Test-time reinforcement learning (TTRL) has emerged as a promising paradigm for self-evolving large reasoning models (LRMs), enabling online adaptation on unlabeled test inputs via self-induced rewards through majority voting. However, a spurious yet high-frequency unverified consensus can become a biased and reinforced reward signal, leading to incorrect mode collapse. We address this failure mode with T^3RL (Tool-Verification for Test-Time Reinforcement Learning), which introduces test-time tool verification into reward estimation. Concretely, a verifier uses an external tool as evidence (e.g., from code execution) to upweight verified rollouts in a verification-aware voting, producing more reliable pseudo-labels for training. Across various math difficulties (MATH-500, AMC, and AIME 2024) and diverse backbone types, T^3RL significantly improves over TTRL, with larger gains on harder problems. More broadly, T^3RL can be viewed as verified online data synthesis, highlighting test-time tool verification as a key mechanism for stabilizing self-evolution.

Vérification d'outils pour l'apprentissage par renforcement en phase de test

Tool Verification for Test-Time Reinforcement Learning

Résumé

Support