ChatPaper.aiChatPaper

FAPO: Otimização de Políticas Consciente de Falhas para Raciocínio Eficiente e Confiável

FAPO: Flawed-Aware Policy Optimization for Efficient and Reliable Reasoning

October 26, 2025
Autores: Yuyang Ding, Chi Zhang, Juntao Li, Haibin Lin, Xin Liu, Min Zhang
cs.AI

Resumo

O aprendizado por reforço com recompensas verificáveis (RLVR) emergiu como um paradigma promissor para aprimorar as capacidades de raciocínio de grandes modelos de linguagem (LLMs). Nesse contexto, os modelos exploram trajetórias de raciocínio e exploram *rollouts* com respostas corretas como sinais positivos para a otimização da política. No entanto, esses *rollouts* podem envolver padrões falhos, como adivinhação de respostas e raciocínio com saltos abruptos. Esses *rollouts* positivos-falhos são recompensados de forma idêntica aos totalmente corretos, fazendo com que os modelos de política internalizem esses padrões de raciocínio não confiáveis. Neste trabalho, primeiro realizamos um estudo sistemático dos *rollouts* positivos-falhos no RL e descobrimos que eles permitem ganhos rápidos de capacidade durante o estágio inicial de otimização, ao mesmo tempo que limitam a capacidade de raciocínio posteriormente, ao reforçar padrões não confiáveis. Com base nessas percepções, propomos a Otimização de Política Consciente de Falhas (FAPO), que apresenta uma penalidade de recompensa livre de parâmetros para *rollouts* positivos-falhos, permitindo que a política os utilize como atalhos úteis na fase de aquecimento, assegurando ganhos iniciais estáveis, enquanto gradualmente desloca a otimização para um raciocínio confiável na fase posterior de refinamento. Para detectar com precisão e abrangência os *rollouts* positivos-falhos, introduzimos um modelo de recompensa generativo (GenRM) com uma recompensa em nível de processo que localiza precisamente os erros de raciocínio. Experimentos mostram que a FAPO é eficaz em domínios amplos, melhorando a correção dos resultados, a confiabilidade do processo e a estabilidade do treinamento sem aumentar o orçamento de *tokens*.
English
Reinforcement learning with verifiable rewards (RLVR) has emerged as a promising paradigm for enhancing the reasoning capabilities of large language models (LLMs). In this context, models explore reasoning trajectories and exploit rollouts with correct answers as positive signals for policy optimization. However, these rollouts might involve flawed patterns such as answer-guessing and jump-in-reasoning. Such flawed-positive rollouts are rewarded identically to fully correct ones, causing policy models to internalize these unreliable reasoning patterns. In this work, we first conduct a systematic study of flawed-positive rollouts in RL and find that they enable rapid capability gains during the early optimization stage, while constraining reasoning capability later by reinforcing unreliable patterns. Building on these insights, we propose Flawed-Aware Policy Optimization (FAPO), which presents a parameter-free reward penalty for flawed-positive rollouts, enabling the policy to leverage them as useful shortcuts in the warm-up stage, securing stable early gains, while gradually shifting optimization toward reliable reasoning in the later refinement stage. To accurately and comprehensively detect flawed-positive rollouts, we introduce a generative reward model (GenRM) with a process-level reward that precisely localizes reasoning errors. Experiments show that FAPO is effective in broad domains, improving outcome correctness, process reliability, and training stability without increasing the token budget.
PDF141February 7, 2026