ChatPaper.aiChatPaper

Opschalen van Multi-Turn Off-Policy RL en Multi-Agent Tree Search voor LLM Stap-voor-Stap Bewijzers

Scaling up Multi-Turn Off-Policy RL and Multi-Agent Tree Search for LLM Step-Provers

September 8, 2025
Auteurs: Ran Xin, Zeyu Zheng, Yanchen Nie, Kun Yuan, Xia Xiao
cs.AI

Samenvatting

De integratie van Large Language Models (LLM's) in geautomatiseerd bewijzen van stellingen heeft enorme belofte getoond, maar wordt fundamenteel beperkt door uitdagingen in het opschalen van zowel reinforcement learning (RL) tijdens de training als de rekencapaciteit tijdens de inferentie. Dit artikel introduceert BFS-Prover-V2, een systeem ontworpen om dit dubbele schaalprobleem aan te pakken. We presenteren twee primaire innovaties. De eerste is een nieuw multi-turn off-policy RL-raamwerk voor het continu verbeteren van de prestaties van de LLM-stapbewijzer tijdens de training. Dit raamwerk, geïnspireerd door de principes van AlphaZero, maakt gebruik van een meerfasen expert-iteratiepijplijn met adaptieve tactiekniveau datafiltering en periodieke hertraining om de prestatieplateaus te overwinnen die doorgaans langdurige RL in LLM-gebaseerde agenten beperken. De tweede innovatie is een planner-versterkte multi-agent zoekarchitectuur die de redeneercapaciteiten tijdens de inferentie opschaalt. Deze architectuur gebruikt een algemeen redeneermodel als een hoog niveau planner om complexe stellingen iteratief te decomponeren in een reeks eenvoudigere subdoelen. Deze hiërarchische aanpak vermindert de zoekruimte aanzienlijk, waardoor een team van parallelle bewijzeragenten efficiënt kan samenwerken door gebruik te maken van een gedeelde bewijscache. We demonstreren dat deze dubbele aanpak tot state-of-the-art resultaten leidt op gevestigde benchmarks voor formele wiskunde. BFS-Prover-V2 behaalt 95,08% en 41,4% op respectievelijk de MiniF2F- en ProofNet-test sets. Hoewel gedemonstreerd in het domein van formele wiskunde, zijn de RL- en inferentietechnieken die in dit werk worden gepresenteerd van breder belang en kunnen ze worden toegepast op andere domeinen die langetermijn multi-turn redenering en complex zoeken vereisen.
English
The integration of Large Language Models (LLMs) into automated theorem proving has shown immense promise, yet is fundamentally constrained by challenges in scaling up both training-time reinforcement learning (RL) and inference-time compute. This paper introduces BFS-Prover-V2, a system designed to address this dual scaling problem. We present two primary innovations. The first is a novel multi-turn off-policy RL framework for continually improving the performance of LLM step-prover at training time. This framework, inspired by the principles of AlphaZero, utilizes a multi-stage expert iteration pipeline featuring adaptive tactic-level data filtering and periodic retraining to surmount the performance plateaus that typically curtail long-term RL in LLM-based agents. The second innovation is a planner-enhanced multi-agent search architecture that scales reasoning capabilities at inference time. This architecture employs a general reasoning model as a high-level planner to iteratively decompose complex theorems into a sequence of simpler subgoals. This hierarchical approach substantially reduces the search space, enabling a team of parallel prover agents to collaborate efficiently by leveraging a shared proof cache. We demonstrate that this dual approach to scaling yields state-of-the-art results on established formal mathematics benchmarks. BFS-Prover-V2 achieves 95.08\% and 41.4\% on the MiniF2F and ProofNet test sets respectively. While demonstrated in the domain of formal mathematics, the RL and inference techniques presented in this work are of broader interest and may be applied to other domains requiring long-horizon multi-turn reasoning and complex search.
PDF112September 9, 2025