ResRL: Повышение способности языковых моделей к рассуждению с помощью остаточного обучения с подкреплением на основе проекции негативных примеров

Аннотация

Обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) улучшает способность крупных языковых моделей (LLM) к рассуждению, но обычно демонстрирует ограниченное разнообразие генерации из-за чрезмерного стимулирования положительными вознаграждениями. Хотя такие методы, как подкрепление на негативных примерах (NSR), смягчают эту проблему за счет увеличения штрафа за негативные примеры, они могут подавлять семантические распределения, общие для позитивных и негативных ответов. Чтобы повысить способность к рассуждению без потери разнообразия, в данной статье предлагается метод остаточного обучения с подкреплением с проекцией негативных примеров (ResRL), который разделяет схожие семантические распределения в позитивных и негативных ответах. Мы теоретически связываем смещение ленивого правдоподобия (LLD) с интерференцией градиентов в голове для негативных и позитивных примеров и выводим одношаговый прокси-метод, который ограничивает сверху выравнивание представлений для управления консервативным перевзвешиванием преимуществ. ResRL затем проецирует скрытые представления негативных токенов на низкоранговое позитивное подпространство на основе SVD и использует остатки проекции для модуляции негативных градиентов, улучшая рассуждения при сохранении разнообразия и превосходя сильные базовые методы в среднем по двенадцати тестовым наборам, охватывающим математику, код, задачи агентов и вызов функций. Примечательно, что ResRL превосходит NSR по математическим рассуждениям на 9,4% по Avg@16 и на 7,0% по Pass@128. Код доступен по адресу https://github.com/1229095296/ResRL.git.

English

Reinforcement Learning with Verifiable Rewards (RLVR) enhances reasoning of Large Language Models (LLMs) but usually exhibits limited generation diversity due to the over-incentivization of positive rewards. Although methods like Negative Sample Reinforcement (NSR) mitigate this issue by upweighting penalty from negative samples, they may suppress the semantic distributions shared between positive and negative responses. To boost reasoning ability without losing diversity, this paper proposes negative sample projection Residual Reinforcement Learning (ResRL) that decouples similar semantic distributions among positive and negative responses. We theoretically link Lazy Likelihood Displacement (LLD) to negative-positive head-gradient interference and derive a single-forward proxy that upper-bounds representation alignment to guide conservative advantage reweighting. ResRL then projects negative-token hidden representations onto an SVD-based low-rank positive subspace and uses projection residuals to modulate negative gradients, improving reasoning while preserving diversity and outperforming strong baselines on average across twelve benchmarks spanning Mathematics, Code, Agent Tasks, and Function Calling. Notably, ResRL surpasses NSR on mathematical reasoning by 9.4\% in Avg@16 and 7.0\% in Pass@128. Code is available at https://github.com/1229095296/ResRL.git.

ResRL: Повышение способности языковых моделей к рассуждению с помощью остаточного обучения с подкреплением на основе проекции негативных примеров

ResRL: Boosting LLM Reasoning via Negative Sample Projection Residual Reinforcement Learning

Аннотация

Support