El sinsentido ayuda: La perturbación del espacio de indicaciones amplía la exploración del razonamiento

Resumen

El aprendizaje por refuerzo con recompensas verificables, particularmente la Optimización de Políticas Relativas de Grupo (GRPO), ha avanzado significativamente en las capacidades de razonamiento de los Modelos de Lenguaje a Gran Escala (LLMs). Sin embargo, en tareas complejas, la GRPO sufre frecuentemente del "problema de ventaja cero": cuando todas las trayectorias muestreadas para una consulta fallan, la ventaja relativa colapsa a cero. En consecuencia, el modelo pierde señales de entrenamiento efectivas para estas preguntas, desperdiciando los datos de entrenamiento y el presupuesto computacional. Si bien aumentar simplemente el presupuesto de muestreo para estas preguntas es un remedio común, la política de muestreo estática restringe inherentemente la exploración del razonamiento, limitando la tasa de éxito. En este artículo, proponemos la Perturbación Lorem para la Exploración (LoPE), un marco de entrenamiento simple pero efectivo para superar este cuello de botella en la exploración. Postulamos que las perturbaciones en el espacio de los *prompts* irrelevantes para la tarea pueden desplazar la distribución de salida del modelo lo suficiente como para desbloquear vías de razonamiento ortogonales para preguntas difíciles. Específicamente, LoPE antepone a los *prompts*, antes del remuestreo, secuencias ensambladas estocásticamente a partir de vocabulario Lorem Ipsum (un texto de marcador de posición pseudo-latino). Los experimentos en modelos de 1.7B, 4B y 7B de parámetros demuestran que LoPE supera significativamente al remuestreo con los *prompts* originales. Un análisis más profundo revela que otras secuencias aleatorias basadas en latín con baja perplejidad también son perturbaciones efectivas. Nuestros resultados establecen a LoPE como un sólido punto de referencia para ampliar la exploración en el aprendizaje por refuerzo de LLMs.

English

Reinforcement learning with verifiable rewards, particularly Group Relative Policy Optimization (GRPO), has significantly advanced the reasoning capabilities of Large Language Models (LLMs). However, in complex tasks, GRPO frequently suffers from the ``zero-advantage problem'': when all sampled rollouts for a query fail, the relative advantage collapses to zero. Consequently, the model loses effective training signals for these questions, wasting the training data and computational budget. While simply increasing the sampling budget for these questions is a common remedy, the static sampling policy inherently constrains reasoning exploration, limiting the success rate. In this paper, we propose Lorem Perturbation for Exploration (LoPE), a simple yet effective training framework to break this exploration bottleneck. We posit that task-irrelevant prompt-space perturbations can shift the model's output distribution enough to unlock orthogonal reasoning pathways for hard questions. Specifically, LoPE prepends sequences stochastically assembled from Lorem Ipsum vocabulary (a pseudo-Latin placeholder text) to the prompts before resampling. Experiments across 1.7B, 4B, and 7B models demonstrate that LoPE significantly outperforms resampling with the original prompts. Further analysis reveals that other Latin-based random sequences with low perplexity are also effective perturbations. Our results establish LoPE as a strong baseline for broadening exploration in LLM reinforcement learning.

El sinsentido ayuda: La perturbación del espacio de indicaciones amplía la exploración del razonamiento

Nonsense Helps: Prompt Space Perturbation Broadens Reasoning Exploration

Resumen

Support