Бред помогает: возмущение пространства промтов расширяет исследование рассуждений

Аннотация

Подкрепляемое обучение с верифицируемыми вознаграждениями, в частности, Оптимизация относительной групповой политики (GRPO), значительно продвинула способности крупных языковых моделей (LLM) к рассуждению. Однако в сложных задачах GRPO часто сталкивается с «проблемой нулевого преимущества»: когда все сэмплированные траектории для запроса терпят неудачу, относительное преимущество сводится к нулю. Как следствие, модель теряет эффективные обучающие сигналы для этих вопросов, растрачивая обучающие данные и вычислительные ресурсы. Хотя простым решением является увеличение бюджета сэмплирования для таких вопросов, статическая политика сэмплирования по своей природе ограничивает исследование пространства рассуждений, снижая вероятность успеха. В данной статье мы предлагаем LoPE (Lorem Perturbation for Exploration) — простую, но эффективную обучающую структуру для преодоления этого барьера исследования. Мы предполагаем, что нерелевантные задаче возмущения в пространстве промтов могут смещать выходное распределение модели достаточно, чтобы открыть ортогональные пути рассуждений для сложных вопросов. В частности, LoPE добавляет к промтам перед повторным сэмплированием последовательности, стохастически собранные из словаря Lorem Ipsum (псевдолатинского текста-заполнителя). Эксперименты на моделях объемом 1.7B, 4B и 7B параметров демонстрируют, что LoPE значительно превосходит повторное сэмплирование с исходными промтами. Дальнейший анализ показывает, что другие случайные последовательности на основе латыни с низкой перплексией также являются эффективными возмущениями. Наши результаты устанавливают LoPE в качестве надежного базового метода для расширения исследования в подкрепляемом обучении LLM.

English

Reinforcement learning with verifiable rewards, particularly Group Relative Policy Optimization (GRPO), has significantly advanced the reasoning capabilities of Large Language Models (LLMs). However, in complex tasks, GRPO frequently suffers from the ``zero-advantage problem'': when all sampled rollouts for a query fail, the relative advantage collapses to zero. Consequently, the model loses effective training signals for these questions, wasting the training data and computational budget. While simply increasing the sampling budget for these questions is a common remedy, the static sampling policy inherently constrains reasoning exploration, limiting the success rate. In this paper, we propose Lorem Perturbation for Exploration (LoPE), a simple yet effective training framework to break this exploration bottleneck. We posit that task-irrelevant prompt-space perturbations can shift the model's output distribution enough to unlock orthogonal reasoning pathways for hard questions. Specifically, LoPE prepends sequences stochastically assembled from Lorem Ipsum vocabulary (a pseudo-Latin placeholder text) to the prompts before resampling. Experiments across 1.7B, 4B, and 7B models demonstrate that LoPE significantly outperforms resampling with the original prompts. Further analysis reveals that other Latin-based random sequences with low perplexity are also effective perturbations. Our results establish LoPE as a strong baseline for broadening exploration in LLM reinforcement learning.

Бред помогает: возмущение пространства промтов расширяет исследование рассуждений

Nonsense Helps: Prompt Space Perturbation Broadens Reasoning Exploration

Аннотация

Support