Le non-sens aide : la perturbation de l'espace de prompts élargit l'exploration du raisonnement

Résumé

L'apprentissage par renforcement avec récompenses vérifiables, notamment l'Optimisation Relative des Politiques par Groupe (GRPO), a considérablement amélioré les capacités de raisonnement des grands modèles de langage (LLM). Cependant, dans les tâches complexes, le GRPO souffre fréquemment du « problème d'avantage nul » : lorsque tous les déploiements échantillonnés pour une requête échouent, l'avantage relatif s'effondre à zéro. Par conséquent, le modèle perd les signaux d'entraînement efficaces pour ces questions, gaspillant les données d'entraînement et le budget computationnel. Bien que simplement augmenter le budget d'échantillonnage pour ces questions soit un remède courant, la politique d'échantillonnage statique limite intrinsèquement l'exploration du raisonnement, restreignant le taux de réussite. Dans cet article, nous proposons la Perturbation Lorem pour l'Exploration (LoPE), un cadre d'entraînement simple mais efficace pour briser ce goulot d'étranglement de l'exploration. Nous postulons que des perturbations dans l'espace des invites, non pertinentes pour la tâche, peuvent modifier suffisamment la distribution de sortie du modèle pour débloquer des voies de raisonnement orthogonales pour les questions difficiles. Concrètement, LoPE ajoute en préfixe des séquences assemblées stochastiquement à partir du vocabulaire Lorem Ipsum (un texte de remplacement pseudo-latin) aux invites avant un rééchantillonnage. Les expériences sur des modèles de 1,7B, 4B et 7B paramètres démontrent que LoPE surpasse significativement le rééchantillonnage avec les invites originales. Une analyse plus poussée révèle que d'autres séquences aléatoires basées sur le latin et à faible perplexité sont également des perturbations efficaces. Nos résultats établissent LoPE comme une référence solide pour élargir l'exploration dans l'apprentissage par renforcement des LLM.

English

Reinforcement learning with verifiable rewards, particularly Group Relative Policy Optimization (GRPO), has significantly advanced the reasoning capabilities of Large Language Models (LLMs). However, in complex tasks, GRPO frequently suffers from the ``zero-advantage problem'': when all sampled rollouts for a query fail, the relative advantage collapses to zero. Consequently, the model loses effective training signals for these questions, wasting the training data and computational budget. While simply increasing the sampling budget for these questions is a common remedy, the static sampling policy inherently constrains reasoning exploration, limiting the success rate. In this paper, we propose Lorem Perturbation for Exploration (LoPE), a simple yet effective training framework to break this exploration bottleneck. We posit that task-irrelevant prompt-space perturbations can shift the model's output distribution enough to unlock orthogonal reasoning pathways for hard questions. Specifically, LoPE prepends sequences stochastically assembled from Lorem Ipsum vocabulary (a pseudo-Latin placeholder text) to the prompts before resampling. Experiments across 1.7B, 4B, and 7B models demonstrate that LoPE significantly outperforms resampling with the original prompts. Further analysis reveals that other Latin-based random sequences with low perplexity are also effective perturbations. Our results establish LoPE as a strong baseline for broadening exploration in LLM reinforcement learning.

Le non-sens aide : la perturbation de l'espace de prompts élargit l'exploration du raisonnement

Nonsense Helps: Prompt Space Perturbation Broadens Reasoning Exploration

Résumé

Support