Пределы обобщения в RLVR: два примера из области математических рассуждений
Limits of Generalization in RLVR: Two Case Studies in Mathematical Reasoning
October 30, 2025
Авторы: Md Tanvirul Alam, Nidhi Rastogi
cs.AI
Аннотация
Математические рассуждения представляют собой ключевую проблему для больших языковых моделей (LLM), требующую не только правильных ответов, но и достоверных процессов логического вывода. Обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) стало перспективным подходом для улучшения таких способностей; однако его способность стимулировать подлинные рассуждения остается неясной. Мы исследуем RLVR на двух комбинаторных задачах с полностью проверяемыми решениями: планирование активностей и поиск самой длинной возрастающей подпоследовательности, используя тщательно отобранные наборы данных с уникальными оптимумами. При различных подходах к проектированию функции вознаграждения мы обнаруживаем, что RLVR улучшает оценочные метрики, но часто за счет закрепления поверхностных эвристик, а не приобретения новых стратегий рассуждения. Эти результаты подчеркивают ограничения обобщающей способности RLVR, акцентируя важность бенчмарков, которые разделяют подлинное математическое рассуждение и использование упрощенных путей, и обеспечивают достоверные меры прогресса. Код доступен по адресу https://github.com/xashru/rlvr-seq-generalization.
English
Mathematical reasoning is a central challenge for large language models
(LLMs), requiring not only correct answers but also faithful reasoning
processes. Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as
a promising approach for enhancing such capabilities; however, its ability to
foster genuine reasoning remains unclear. We investigate RLVR on two
combinatorial problems with fully verifiable solutions: Activity
Scheduling and the Longest Increasing Subsequence, using carefully
curated datasets with unique optima. Across multiple reward designs, we find
that RLVR improves evaluation metrics but often by reinforcing superficial
heuristics rather than acquiring new reasoning strategies. These findings
highlight the limits of RLVR generalization, emphasizing the importance of
benchmarks that disentangle genuine mathematical reasoning from shortcut
exploitation and provide faithful measures of progress. Code available at
https://github.com/xashru/rlvr-seq-generalization.