Leren van Agentisch Beleid uit Actiebegeleiding

Samenvatting

Agentisch versterkend leren (RL) voor grote taalmodellen (LLM’s) is in hoge mate afhankelijk van de exploratiecapaciteit van het basisbeleid, omdat trainingssignalen alleen binnen het competentiegebied ervan optreden. Voor taken waarbij het basisbeleid geen beloningstoestanden kan bereiken, is aanvullende training of externe begeleiding nodig om effectieve leersignalen te herstellen. In plaats van te vertrouwen op kostbare iteratieve gesuperviseerde fijnafstemming (SFT), benutten wij de overvloedige actiedata die worden gegenereerd in alledaagse menselijke interacties. Wij stellen ActGuide-RL voor, dat actiedata injecteert als plan-achtige referentiebegeleiding, waardoor het agentische beleid in staat wordt gesteld om bereikbaarheidsbarrières naar beloningstoestanden te overwinnen. Begeleide en onbegeleide rollouts worden vervolgens gezamenlijk geoptimaliseerd via gemengd-beleidstraining, waarbij de exploratiewinst wordt geïnternaliseerd in het onbegeleide beleid. Gemotiveerd door een theoretische en empirische analyse van de baten-risicoafweging, hanteren wij een minimaal interventieprincipe dat begeleiding alleen als adaptieve terugvaloptie inroept, waarbij de taakmoeilijkheid wordt gematcht en het off-policy risico wordt geminimaliseerd. Op zoekagentbenchmarks verbetert ActGuide-RL aanzienlijk ten opzichte van nul RL (+10,7 pp op GAIA en +19 pp op XBench met Qwen3-4B), en presteert het op hetzelfde niveau als de SFT+RL-pijplijn zonder enige koude start. Dit suggereert een nieuw paradigma voor agentisch RL dat de afhankelijkheid van zware SFT-data vermindert door in plaats daarvan schaalbare actiebegeleiding te gebruiken.

English

Agentic reinforcement learning (RL) for Large Language Models (LLMs) critically depends on the exploration capability of the base policy, as training signals emerge only within its in-capability region. For tasks where the base policy cannot reach reward states, additional training or external guidance is needed to recover effective learning signals. Rather than relying on costly iterative supervised fine tuning (SFT), we exploit the abundant action data generated in everyday human interactions. We propose ActGuide-RL, which injects action data as plan-style reference guidance, enabling the agentic policy to overcome reachability barriers to reward states. Guided and unguided rollouts are then jointly optimized via mixed-policy training, internalizing the exploration gains back into the unguided policy. Motivated by a theoretical and empirical analysis of the benefit-risk trade-off, we adopt a minimal intervention principle that invokes guidance only as an adaptive fallback, matching task difficulty while minimizing off-policy risk. On search-agent benchmarks, ActGuide-RL substantially improves over zero RL (+10.7 pp on GAIA and +19 pp on XBench with Qwen3-4B), and performs on par with the SFT+RL pipeline without any cold start. This suggests a new paradigm for agentic RL that reduces the reliance on heavy SFT data by using scalable action guidance instead.