FAPO: Optimización de Políticas Consciente de Errores para un Razonamiento Eficiente y Fiable
FAPO: Flawed-Aware Policy Optimization for Efficient and Reliable Reasoning
October 26, 2025
Autores: Yuyang Ding, Chi Zhang, Juntao Li, Haibin Lin, Xin Liu, Min Zhang
cs.AI
Resumen
El aprendizaje por refuerzo con recompensas verificables (RLVR) ha surgido como un paradigma prometedor para mejorar las capacidades de razonamiento de los modelos de lenguaje grande (LLM). En este contexto, los modelos exploran trayectorias de razonamiento y aprovechan las ejecuciones (rollouts) con respuestas correctas como señales positivas para la optimización de políticas. Sin embargo, estas ejecuciones pueden contener patrones defectuosos, como adivinar la respuesta o realizar saltos en el razonamiento. Dichas ejecuciones positivas pero defectuosas son recompensadas de manera idéntica a las completamente correctas, lo que provoca que los modelos de política interioricen estos patrones de razonamiento poco fiables. En este trabajo, primero realizamos un estudio sistemático de las ejecuciones positivas defectuosas en RL y descubrimos que permiten ganancias rápidas de capacidad durante la etapa temprana de optimización, mientras que limitan la capacidad de razonamiento más adelante al reforzar patrones no confiables. Basándonos en estas observaciones, proponemos la Optimización de Políticas con Conciencia de Defectos (FAPO), que presenta una penalización de recompensa sin parámetros para las ejecuciones positivas defectuosas, permitiendo que la política las utilice como atajos útiles en la fase de calentamiento, asegurando ganancias tempranas estables, mientras cambia gradualmente la optimización hacia un razonamiento confiable en la etapa posterior de refinamiento. Para detectar de forma precisa y exhaustiva las ejecuciones positivas defectuosas, introducimos un modelo de recompensa generativo (GenRM) con una recompensa a nivel de proceso que localiza con precisión los errores de razonamiento. Los experimentos demuestran que FAPO es efectivo en diversos dominios, mejorando la corrección de los resultados, la fiabilidad del proceso y la estabilidad del entrenamiento sin aumentar el presupuesto de tokens.
English
Reinforcement learning with verifiable rewards (RLVR) has emerged as a
promising paradigm for enhancing the reasoning capabilities of large language
models (LLMs). In this context, models explore reasoning trajectories and
exploit rollouts with correct answers as positive signals for policy
optimization. However, these rollouts might involve flawed patterns such as
answer-guessing and jump-in-reasoning. Such flawed-positive rollouts are
rewarded identically to fully correct ones, causing policy models to
internalize these unreliable reasoning patterns. In this work, we first conduct
a systematic study of flawed-positive rollouts in RL and find that they enable
rapid capability gains during the early optimization stage, while constraining
reasoning capability later by reinforcing unreliable patterns. Building on
these insights, we propose Flawed-Aware Policy Optimization (FAPO), which
presents a parameter-free reward penalty for flawed-positive rollouts, enabling
the policy to leverage them as useful shortcuts in the warm-up stage, securing
stable early gains, while gradually shifting optimization toward reliable
reasoning in the later refinement stage. To accurately and comprehensively
detect flawed-positive rollouts, we introduce a generative reward model (GenRM)
with a process-level reward that precisely localizes reasoning errors.
Experiments show that FAPO is effective in broad domains, improving outcome
correctness, process reliability, and training stability without increasing the
token budget.