Onzin Helpt: Verstoring van de Promptruimte Verbreedt de Verkening van Redeneervaardigheden

Samenvatting

Versterkend leren met verifieerbare beloningen, met name Group Relative Policy Optimization (GRPO), heeft de redeneercapaciteiten van grote taalmodellen (LLM's) aanzienlijk verbeterd. Bij complexe taken lijdt GRPO echter vaak onder het "nulvoordeelprobleem": wanneer alle bemonsterde rollouts voor een query falen, stort het relatieve voordeel in tot nul. Bijgevolg verliest het model effectieve trainingssignalen voor deze vragen, wat de trainingsdata en het rekenbudget verspilt. Hoewel het simpelweg verhogen van het steekproefbudget voor deze vragen een gebruikelijke oplossing is, belemmert het statische steekproefbeleid inherent de verkenning van redeneerpaden, wat het succespercentage beperkt. In dit artikel stellen we Lorem Perturbation for Exploration (LoPE) voor, een eenvoudig maar effectief trainingsraamwerk om deze verkenningsbeperking te doorbreken. Wij stellen dat taakonafhankelijke perturbaties in de promptruimte de uitvoerdistributie van het model voldoende kunnen verschuiven om orthogonale redeneerpaden voor moeilijke vragen vrij te maken. Specifiek voegt LoPE sequenties toe, stochastisch samengesteld uit Lorem Ipsum-vocabulaire (een pseudo-Latijnse plaatshoudertekst), aan de prompts alvorens opnieuw te bemonsteren. Experimenten met 1,7B-, 4B- en 7B-modellen tonen aan dat LoPE aanzienlijk beter presteert dan hermonstering met de originele prompts. Verdere analyse toont aan dat andere op Latijn gebaseerde willekeurige sequenties met een lage perplexiteit ook effectieve perturbaties zijn. Onze resultaten positioneren LoPE als een sterke basislijn voor het verbreden van verkenning bij versterkend leren voor LLM's.

English

Reinforcement learning with verifiable rewards, particularly Group Relative Policy Optimization (GRPO), has significantly advanced the reasoning capabilities of Large Language Models (LLMs). However, in complex tasks, GRPO frequently suffers from the ``zero-advantage problem'': when all sampled rollouts for a query fail, the relative advantage collapses to zero. Consequently, the model loses effective training signals for these questions, wasting the training data and computational budget. While simply increasing the sampling budget for these questions is a common remedy, the static sampling policy inherently constrains reasoning exploration, limiting the success rate. In this paper, we propose Lorem Perturbation for Exploration (LoPE), a simple yet effective training framework to break this exploration bottleneck. We posit that task-irrelevant prompt-space perturbations can shift the model's output distribution enough to unlock orthogonal reasoning pathways for hard questions. Specifically, LoPE prepends sequences stochastically assembled from Lorem Ipsum vocabulary (a pseudo-Latin placeholder text) to the prompts before resampling. Experiments across 1.7B, 4B, and 7B models demonstrate that LoPE significantly outperforms resampling with the original prompts. Further analysis reveals that other Latin-based random sequences with low perplexity are also effective perturbations. Our results establish LoPE as a strong baseline for broadening exploration in LLM reinforcement learning.

Onzin Helpt: Verstoring van de Promptruimte Verbreedt de Verkening van Redeneervaardigheden

Nonsense Helps: Prompt Space Perturbation Broadens Reasoning Exploration

Samenvatting

Support