Беcпотерьная оптимизация политики для больших языковых моделей

Аннотация

Обучение с подкреплением стало ключевым методом посттренировки больших языковых моделей, однако доминирующие алгоритмы опираются на механизмы отсечения (clipping), которые создают проблемы оптимизации при масштабировании, включая области нулевого градиента, эксплуатацию функции вознаграждения и нестабильность обучения. Мы предлагаем Беcклипповую оптимизацию политики (CFPO), которая заменяет эвристическое отсечение выпуклым квадратичным штрафом, выведенным из ограничений на дивергенцию полной вариации. Это дает везде дифференцируемую целевую функцию, обеспечивающую стабильные обновления политики без жестких границ. Мы оцениваем CFPO в условиях как решения задач, так и согласования. В решении задач CFPO соответствует методам на основе отсечения по производительности на downstream-бенчмарках, одновременно расширяя режим стабильного обучения. В согласовании CFPO смягчает эксплуатацию многословия и снижает деградацию способностей, демонстрируя при этом конкурентоспособные результаты в выполнении инструкций. CFPO требует изменения всего одной строки кода и не вводит дополнительных гиперпараметров. Наши результаты позволяют предположить, что CFPO является перспективной прямой заменой методов на основе отсечения для посттренировки языковых моделей.

English

Reinforcement learning has become central to post-training large language models, yet dominant algorithms rely on clipping mechanisms that introduce optimization issues at scale, including zero-gradient regions, reward hacking, and training instability. We propose Clipping-Free Policy Optimization (CFPO), which replaces heuristic clipping with a convex quadratic penalty derived from Total Variation divergence constraints, yielding an everywhere-differentiable objective that enforces stable policy updates without hard boundaries. We evaluate CFPO across both reasoning and alignment settings. In reasoning, CFPO matches clipping-based methods on downstream benchmarks while extending the stable training regime. In alignment, CFPO mitigates verbosity exploitation and reduces capability degradation, while achieving competitive instruction-following performance. CFPO requires only a one-line code change and no additional hyperparameters. Our results suggest that CFPO is a promising drop-in alternative to clipping-based methods for LLM post-training.

Беcпотерьная оптимизация политики для больших языковых моделей

Clipping-Free Policy Optimization for Large Language Models

Аннотация

Support