Верификация инструментов для обучения с подкреплением в тестовое время

Аннотация

Обучение с подкреплением на тестовых данных (TTRL) стало перспективной парадигмой для саморазвивающихся больших моделей рассуждений (LRM), позволяя осуществлять онлайн-адаптацию на размеченных тестовых входных данных посредством самоиндуцированных вознаграждений на основе мажоритарного голосования. Однако, ложный, но высокочастотный непроверенный консенсус может стать смещенным и усиленным сигналом вознаграждения, приводя к коллапсу неправильной моды. Мы устраняем этот тип сбоя с помощью T³RL (Проверка Инструментами для Обучения с Подкреплением на Тестовых Данных), которая вводит проверку инструментами на этапе тестирования в оценку вознаграждения. Конкретно, верификатор использует внешний инструмент в качестве доказательства (например, выполнение кода), чтобы увеличить вес проверенных траекторий в верификационно-ориентированном голосовании, создавая более надежные псевдо-метки для обучения. На различных наборах математических задач разной сложности (MATH-500, AMC и AIME 2024) и с разнообразными типами базовых моделей T³RL значительно превосходит TTRL, демонстрируя больший прирост на более сложных задачах. В более широком смысле, T³RL можно рассматривать как верифицированный синтез данных в режиме онлайн, что подчеркивает проверку инструментами на этапе тестирования как ключевой механизм для стабилизации саморазвития.

English

Test-time reinforcement learning (TTRL) has emerged as a promising paradigm for self-evolving large reasoning models (LRMs), enabling online adaptation on unlabeled test inputs via self-induced rewards through majority voting. However, a spurious yet high-frequency unverified consensus can become a biased and reinforced reward signal, leading to incorrect mode collapse. We address this failure mode with T^3RL (Tool-Verification for Test-Time Reinforcement Learning), which introduces test-time tool verification into reward estimation. Concretely, a verifier uses an external tool as evidence (e.g., from code execution) to upweight verified rollouts in a verification-aware voting, producing more reliable pseudo-labels for training. Across various math difficulties (MATH-500, AMC, and AIME 2024) and diverse backbone types, T^3RL significantly improves over TTRL, with larger gains on harder problems. More broadly, T^3RL can be viewed as verified online data synthesis, highlighting test-time tool verification as a key mechanism for stabilizing self-evolution.

Верификация инструментов для обучения с подкреплением в тестовое время

Tool Verification for Test-Time Reinforcement Learning

Аннотация

Support