Verificación de Herramientas para el Aprendizaje por Refuerzo en Tiempo de Prueba

Resumen

El aprendizaje por refuerzo en tiempo de prueba (TTRL) ha surgido como un paradigma prometedor para la autoevolución de grandes modelos de razonamiento (LRM), permitiendo la adaptación en línea sobre entradas de prueba no etiquetadas mediante recompensas autoinducidas a través de votación mayoritaria. Sin embargo, un consenso no verificado, espurio y de alta frecuencia puede convertirse en una señal de recompensa sesgada y reforzada, conduciendo a un colapso modal incorrecto. Abordamos este modo de fallo con T^3RL (Verificación con Herramientas para el Aprendizaje por Refuerzo en Tiempo de Prueba), que introduce la verificación con herramientas en tiempo de prueba en la estimación de recompensas. Concretamente, un verificador utiliza una herramienta externa como evidencia (por ejemplo, de la ejecución de código) para dar mayor peso a las trayectorias verificadas en una votación consciente de la verificación, produciendo pseudolabels más confiables para el entrenamiento. En diversas dificultades matemáticas (MATH-500, AMC y AIME 2024) y tipos de modelos base diversos, T^3RL mejora significativamente respecto a TTRL, con ganancias mayores en problemas más difíciles. En un sentido más amplio, T^3RL puede verse como una síntesis de datos en línea verificada, destacando la verificación con herramientas en tiempo de prueba como un mecanismo clave para estabilizar la autoevolución.

English

Test-time reinforcement learning (TTRL) has emerged as a promising paradigm for self-evolving large reasoning models (LRMs), enabling online adaptation on unlabeled test inputs via self-induced rewards through majority voting. However, a spurious yet high-frequency unverified consensus can become a biased and reinforced reward signal, leading to incorrect mode collapse. We address this failure mode with T^3RL (Tool-Verification for Test-Time Reinforcement Learning), which introduces test-time tool verification into reward estimation. Concretely, a verifier uses an external tool as evidence (e.g., from code execution) to upweight verified rollouts in a verification-aware voting, producing more reliable pseudo-labels for training. Across various math difficulties (MATH-500, AMC, and AIME 2024) and diverse backbone types, T^3RL significantly improves over TTRL, with larger gains on harder problems. More broadly, T^3RL can be viewed as verified online data synthesis, highlighting test-time tool verification as a key mechanism for stabilizing self-evolution.

Verificación de Herramientas para el Aprendizaje por Refuerzo en Tiempo de Prueba

Tool Verification for Test-Time Reinforcement Learning

Resumen

Support