Verificação de Ferramentas para Aprendizagem por Reforço em Tempo de Teste

Resumo

O Reforço de Aprendizagem em Tempo de Teste (TTRL) emergiu como um paradigma promissor para a auto-evolução de Grandes Modelos de Raciocínio (LRMs), permitindo a adaptação online em entradas de teste não rotuladas por meio de recompensas autoinduzidas através de voto majoritário. No entanto, um consenso não verificado, espúrio, porém de alta frequência, pode tornar-se um sinal de recompensa enviesado e reforçado, levando a um colapso modal incorreto. Nós abordamos este modo de falha com o T³RL (Verificação por Ferramenta para Reforço de Aprendizagem em Tempo de Teste), que introduz a verificação por ferramenta em tempo de teste na estimativa de recompensa. Concretamente, um verificador utiliza uma ferramenta externa como evidência (por exemplo, da execução de código) para aumentar o peso de *rollouts* verificados em uma votação consciente da verificação, produzindo pseudo-rótulos mais confiáveis para o treinamento. Em várias dificuldades matemáticas (MATH-500, AMC e AIME 2024) e diversos tipos de *backbone*, o T³RL melhora significativamente em relação ao TTRL, com ganhos maiores em problemas mais difíceis. De forma mais ampla, o T³RL pode ser visto como uma síntese de dados online verificada, destacando a verificação por ferramenta em tempo de teste como um mecanismo chave para estabilizar a auto-evolução.

English

Test-time reinforcement learning (TTRL) has emerged as a promising paradigm for self-evolving large reasoning models (LRMs), enabling online adaptation on unlabeled test inputs via self-induced rewards through majority voting. However, a spurious yet high-frequency unverified consensus can become a biased and reinforced reward signal, leading to incorrect mode collapse. We address this failure mode with T^3RL (Tool-Verification for Test-Time Reinforcement Learning), which introduces test-time tool verification into reward estimation. Concretely, a verifier uses an external tool as evidence (e.g., from code execution) to upweight verified rollouts in a verification-aware voting, producing more reliable pseudo-labels for training. Across various math difficulties (MATH-500, AMC, and AIME 2024) and diverse backbone types, T^3RL significantly improves over TTRL, with larger gains on harder problems. More broadly, T^3RL can be viewed as verified online data synthesis, highlighting test-time tool verification as a key mechanism for stabilizing self-evolution.

Verificação de Ferramentas para Aprendizagem por Reforço em Tempo de Teste

Tool Verification for Test-Time Reinforcement Learning

Resumo

Support