FAPO: Оптимизация стратегии с учетом ошибок для эффективного и надежного логического вывода
FAPO: Flawed-Aware Policy Optimization for Efficient and Reliable Reasoning
October 26, 2025
Авторы: Yuyang Ding, Chi Zhang, Juntao Li, Haibin Lin, Xin Liu, Min Zhang
cs.AI
Аннотация
Обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) стало перспективной парадигмой для расширения возможностей логического вывода больших языковых моделей (LLM). В этом контексте модели исследуют траектории рассуждений и используют прогоны с правильными ответами в качестве положительных сигналов для оптимизации политики. Однако эти прогоны могут содержать ошибочные паттерны, такие как угадывание ответа и скачкообразные рассуждения. Такие ошибочно-положительные прогоны поощряются идентично полностью корректным, что приводит к усвоению политическими моделями этих ненадежных паттернов рассуждений. В данной работе мы сначала проводим систематическое исследование ошибочно-положительных прогонов в RL и обнаруживаем, что они позволяют достичь быстрого роста способностей на ранней стадии оптимизации, но впоследствии ограничивают возможности логического вывода, закрепляя ненадежные паттерны. Основываясь на этих выводах, мы предлагаем Оптимизацию политики с учетом ошибок (FAPO), которая вводит беспараметрированный штраф за вознаграждение для ошибочно-положительных прогонов. Это позволяет политике использовать их как полезные сокращения на начальном этапе, обеспечивая стабильный ранний прогресс, при этом постепенно смещая оптимизацию в сторону надежных рассуждений на последующем этапе тонкой настройки. Для точного и всестороннего выявления ошибочно-положительных прогонов мы представляем генеративную модель вознаграждения (GenRM) с процессуальным вознаграждением, которое точно локализует ошибки в рассуждениях. Эксперименты показывают, что FAPO эффективна в широком спектре областей, улучшая корректность результатов, надежность процесса и стабильность обучения без увеличения бюджета токенов.
English
Reinforcement learning with verifiable rewards (RLVR) has emerged as a
promising paradigm for enhancing the reasoning capabilities of large language
models (LLMs). In this context, models explore reasoning trajectories and
exploit rollouts with correct answers as positive signals for policy
optimization. However, these rollouts might involve flawed patterns such as
answer-guessing and jump-in-reasoning. Such flawed-positive rollouts are
rewarded identically to fully correct ones, causing policy models to
internalize these unreliable reasoning patterns. In this work, we first conduct
a systematic study of flawed-positive rollouts in RL and find that they enable
rapid capability gains during the early optimization stage, while constraining
reasoning capability later by reinforcing unreliable patterns. Building on
these insights, we propose Flawed-Aware Policy Optimization (FAPO), which
presents a parameter-free reward penalty for flawed-positive rollouts, enabling
the policy to leverage them as useful shortcuts in the warm-up stage, securing
stable early gains, while gradually shifting optimization toward reliable
reasoning in the later refinement stage. To accurately and comprehensively
detect flawed-positive rollouts, we introduce a generative reward model (GenRM)
with a process-level reward that precisely localizes reasoning errors.
Experiments show that FAPO is effective in broad domains, improving outcome
correctness, process reliability, and training stability without increasing the
token budget.