О направлении обновлений RLVR для рассуждений больших языковых моделей: идентификация и использование

Аннотация

Подкрепляемое обучение с верифицируемыми вознаграждениями (RLVR) существенно улучшило способности больших языковых моделей к рассуждению. Хотя существующие анализы показывают, что изменения, вызванные RLVR, являются разреженными, они в основном сосредоточены на величине этих обновлений, в значительной степени упуская из виду их направление. В данной работе мы утверждаем, что направление обновлений является более важной перспективой для понимания эффектов RLVR, которое может быть захвачено разницей в логарифмических вероятностях на уровне токенов со знаком, Δlog p, между базовой и финальной RLVR-моделями. С помощью статистического анализа и интервенций с заменой токенов мы демонстрируем, что Δlog p более эффективно идентифицирует разреженные, но критически важные для рассуждений обновления, чем метрики, основанные на величине (например, дивергенция или энтропия). Основываясь на этом наблюдении, мы предлагаем два практических приложения: (1) метод экстраполяции во время тестирования, который усиливает политику вдоль изученного направления Δlog p для повышения точности рассуждений без дополнительного обучения; (2) метод перевзвешивания во время обучения, который фокусирует обучение на токенах с низкой вероятностью (соответствующих более высокому Δlog p), что улучшает производительность рассуждений в различных моделях и бенчмарках. Наша работа устанавливает направление изменений в качестве ключевого принципа для анализа и улучшения RLVR.

English

Reinforcement learning with verifiable rewards (RLVR) has substantially improved the reasoning capabilities of large language models. While existing analyses identify that RLVR-induced changes are sparse, they primarily focus on the magnitude of these updates, largely overlooking their direction. In this work, we argue that the direction of updates is a more critical lens for understanding RLVR's effects, which can be captured by the signed, token-level log probability difference Δlog p between the base and final RLVR models. Through statistical analysis and token-replacement interventions, we demonstrate that Δlog p more effectively identifies sparse, yet reasoning-critical updates than magnitude-based metrics (\eg divergence or entropy). Building on this insight, we propose two practical applications: (1) a test-time extrapolation method that amplifies the policy along the learned Δlog p direction to improve reasoning accuracy without further training; (2) a training-time reweighting method that focuses learning on low-probability (corresponding to higher Δlog p) tokens, which improves reasoning performance across models and benchmarks. Our work establishes the direction of change as a key principle for analyzing and improving RLVR.

О направлении обновлений RLVR для рассуждений больших языковых моделей: идентификация и использование

On the Direction of RLVR Updates for LLM Reasoning: Identification and Exploitation

Аннотация

Support