Unsinn hilft: Störungen im Prompt-Raum erweitern die Denkexploration

Zusammenfassung

Verstärkendes Lernen mit verifizierbaren Belohnungen, insbesondere Group Relative Policy Optimization (GRPO), hat die Reasoning-Fähigkeiten großer Sprachmodelle (LLMs) erheblich vorangebracht. Bei komplexen Aufgaben leidet GRPO jedoch häufig unter dem „Null-Vorteils-Problem“: Wenn alle gesampelten Rollouts für eine Anfrage scheitern, kollabiert der relative Vorteil auf null. Infolgedessen verliert das Modell für diese Fragen effektive Trainingssignale, was Trainingsdaten und Rechenbudget verschwendet. Obwohl das einfache Erhöhen des Sampling-Budgets für diese Fragen ein gängiges Mittel ist, schränkt die statische Sampling-Strategie die Erkundung von Lösungswegen grundsätzlich ein und begrenzt so die Erfolgsquote. In diesem Artikel schlagen wir Lorem Perturbation for Exploration (LoPE) vor, ein einfaches, aber effektives Trainingsframework, um diesen Erkundungsengpass zu überwinden. Wir postulieren, dass aufgabenirrelevante Perturbationen im Prompt-Raum die Ausgabeverteilung des Modells ausreichend verschieben können, um orthogonale Reasoning-Pfade für schwierige Fragen freizuschalten. Konkret fügt LoPE den Prompts vor dem erneuten Sampling Sequenzen hinzu, die stochastisch aus einem Lorem-Ipsum-Vokabular (einem pseudo-lateinischen Platzhaltertext) zusammengesetzt sind. Experimente mit 1,7B-, 4B- und 7B-Modellen zeigen, dass LoPE das erneute Sampling mit den ursprünglichen Prompts signifikant übertrifft. Eine weitere Analyse offenbart, dass auch andere lateinbasierte Zufallssequenzen mit niedriger Perplexität effektive Perturbationen darstellen. Unsere Ergebnisse etablieren LoPE als eine starke Baseline zur Erweiterung der Erkundung beim verstärkenden Lernen von LLMs.

English

Reinforcement learning with verifiable rewards, particularly Group Relative Policy Optimization (GRPO), has significantly advanced the reasoning capabilities of Large Language Models (LLMs). However, in complex tasks, GRPO frequently suffers from the ``zero-advantage problem'': when all sampled rollouts for a query fail, the relative advantage collapses to zero. Consequently, the model loses effective training signals for these questions, wasting the training data and computational budget. While simply increasing the sampling budget for these questions is a common remedy, the static sampling policy inherently constrains reasoning exploration, limiting the success rate. In this paper, we propose Lorem Perturbation for Exploration (LoPE), a simple yet effective training framework to break this exploration bottleneck. We posit that task-irrelevant prompt-space perturbations can shift the model's output distribution enough to unlock orthogonal reasoning pathways for hard questions. Specifically, LoPE prepends sequences stochastically assembled from Lorem Ipsum vocabulary (a pseudo-Latin placeholder text) to the prompts before resampling. Experiments across 1.7B, 4B, and 7B models demonstrate that LoPE significantly outperforms resampling with the original prompts. Further analysis reveals that other Latin-based random sequences with low perplexity are also effective perturbations. Our results establish LoPE as a strong baseline for broadening exploration in LLM reinforcement learning.

Unsinn hilft: Störungen im Prompt-Raum erweitern die Denkexploration

Nonsense Helps: Prompt Space Perturbation Broadens Reasoning Exploration

Zusammenfassung

Support