FAPO: Foutbewust Beleidsoptimalisatie voor Efficiënte en Betrouwbare Redenering
FAPO: Flawed-Aware Policy Optimization for Efficient and Reliable Reasoning
October 26, 2025
Auteurs: Yuyang Ding, Chi Zhang, Juntao Li, Haibin Lin, Xin Liu, Min Zhang
cs.AI
Samenvatting
Versterkend leren met verifieerbare beloningen (RLVR) is naar voren gekomen als een veelbelovend paradigma voor het verbeteren van de redeneercapaciteiten van grote taalmodellen (LLM's). In deze context verkennen modellen redeneertrajecten en benutten ze rollouts met correcte antwoorden als positieve signalen voor beleidsoptimalisatie. Deze rollouts kunnen echter gebrekkige patronen bevatten, zoals het gokken van antwoorden en sprongsgewijs redeneren. Dergelijke gebrekkig-positieve rollouts worden op dezelfde manier beloond als volledig correcte, waardoor beleidsmodellen deze onbetrouwbare redeneerpatronen internaliseren. In dit werk voeren we eerst een systematische studie uit naar gebrekkig-positieve rollouts bij RL en ontdekken we dat ze in de vroege optimalisatiefase snelle capaciteitswinst mogelijk maken, maar later de redeneercapaciteit beperken door onbetrouwbare patronen te versterken. Op basis van deze inzichten stellen we Foutbewuste Beleidsoptimalisatie (FAPO) voor, welke een parameter-vrije beloningsstraf introduceert voor gebrekkig-positieve rollouts. Hierdoor kan het beleid ze in de opstartfase benutten als nuttige shortcuts, wat stabiele vroege winst garandeert, terwijl de optimalisatie in de latere verfijningsfase geleidelijk verschuift naar betrouwbaar redeneren. Om gebrekkig-positieve rollouts nauwkeurig en uitgebreid te detecteren, introduceren we een generatief beloningsmodel (GenRM) met een procesniveau-beloning dat redeneerfouten precies lokaliseert. Experimenten tonen aan dat FAPO effectief is in brede domeinen, waarbij het de correctheid van uitkomsten, de betrouwbaarheid van het proces en de trainingsstabiliteit verbetert zonder het tokenbudget te verhogen.
English
Reinforcement learning with verifiable rewards (RLVR) has emerged as a
promising paradigm for enhancing the reasoning capabilities of large language
models (LLMs). In this context, models explore reasoning trajectories and
exploit rollouts with correct answers as positive signals for policy
optimization. However, these rollouts might involve flawed patterns such as
answer-guessing and jump-in-reasoning. Such flawed-positive rollouts are
rewarded identically to fully correct ones, causing policy models to
internalize these unreliable reasoning patterns. In this work, we first conduct
a systematic study of flawed-positive rollouts in RL and find that they enable
rapid capability gains during the early optimization stage, while constraining
reasoning capability later by reinforcing unreliable patterns. Building on
these insights, we propose Flawed-Aware Policy Optimization (FAPO), which
presents a parameter-free reward penalty for flawed-positive rollouts, enabling
the policy to leverage them as useful shortcuts in the warm-up stage, securing
stable early gains, while gradually shifting optimization toward reliable
reasoning in the later refinement stage. To accurately and comprehensively
detect flawed-positive rollouts, we introduce a generative reward model (GenRM)
with a process-level reward that precisely localizes reasoning errors.
Experiments show that FAPO is effective in broad domains, improving outcome
correctness, process reliability, and training stability without increasing the
token budget.