ナンセンスが役立つ:プロンプト空間の摂動が推論探索を拡大する
Nonsense Helps: Prompt Space Perturbation Broadens Reasoning Exploration
May 7, 2026
著者: Langlin Huang, Chengsong Huang, Jinyuan Li, Donghong Cai, Yuyi Yang, Jiaxin Huang
cs.AI
要旨
検証可能な報酬を用いた強化学習、特にGroup Relative Policy Optimization(GRPO)は、大規模言語モデル(LLM)の推論能力を大幅に進歩させてきた。しかし、複雑なタスクにおいて、GRPOは頻繁に「ゼロアドバンテージ問題」に悩まされる。すなわち、あるクエリに対する全てのサンプリングされたロールアウトが失敗した場合、相対的アドバンテージがゼロに崩壊する。その結果、モデルはこれらの問題に対する効果的な訓練信号を失い、訓練データと計算リソースが浪費される。これらの問題に対して単純にサンプリング数を増やすことは一般的な対策であるが、静的なサンプリングポリシーは本質的に推論の探索を制約し、成功率を限定してしまう。本論文では、この探索のボトルネックを打破するための、簡潔でありながら効果的な訓練フレームワークであるLorem Perturbation for Exploration(LoPE)を提案する。我々は、タスクと無関係なプロンプト空間への摂動が、モデルの出力分布を十分に変化させ、難問に対する直交的な推論経路を開放し得ると仮定する。具体的には、LoPEは再サンプリング前に、Lorem Ipsum語彙(擬似ラテン語のプレースホルダーテキスト)から確率的に組み立てられたシーケンスをプロンプトの先頭に付加する。1.7B、4B、7Bモデルを用いた実験により、LoPEが元のプロンプトを用いた再サンプリングを有意に上回ることを実証する。さらなる分析により、低いパープレキシティを持つ他のラテンベースのランダムシーケンスも有効な摂動となり得ることが明らかになった。我々の結果は、LLM強化学習における探索範囲の拡大に対する強力なベースラインとしてLoPEを確立するものである。
English
Reinforcement learning with verifiable rewards, particularly Group Relative Policy Optimization (GRPO), has significantly advanced the reasoning capabilities of Large Language Models (LLMs). However, in complex tasks, GRPO frequently suffers from the ``zero-advantage problem'': when all sampled rollouts for a query fail, the relative advantage collapses to zero. Consequently, the model loses effective training signals for these questions, wasting the training data and computational budget. While simply increasing the sampling budget for these questions is a common remedy, the static sampling policy inherently constrains reasoning exploration, limiting the success rate. In this paper, we propose Lorem Perturbation for Exploration (LoPE), a simple yet effective training framework to break this exploration bottleneck. We posit that task-irrelevant prompt-space perturbations can shift the model's output distribution enough to unlock orthogonal reasoning pathways for hard questions. Specifically, LoPE prepends sequences stochastically assembled from Lorem Ipsum vocabulary (a pseudo-Latin placeholder text) to the prompts before resampling. Experiments across 1.7B, 4B, and 7B models demonstrate that LoPE significantly outperforms resampling with the original prompts. Further analysis reveals that other Latin-based random sequences with low perplexity are also effective perturbations. Our results establish LoPE as a strong baseline for broadening exploration in LLM reinforcement learning.