Kleinere Modelle sind natürliche Exploratoren für Policy-Level-Diversität in GRPO

Zusammenfassung

Wir identifizieren eine neue Dimension zur Steigerung der Rollout-Diversität in der Group Relative Policy Optimization (GRPO) für große Sprachmodelle (LLMs). Während GRPO auf diverse Rollouts angewiesen ist, erhöhen gängige Strategien die Diversität vor allem durch die Einführung von mehr Zufälligkeit auf Token-Ebene, was jedoch schrittweises Rauschen verursachen und zu inkohärenten Trajektorien führen kann. Wir entdecken, dass kleinere Modelle innerhalb derselben Modellfamilie inhärent eine höhere Diversität auf Policy-Ebene aufweisen, was sich in einem besseren pass@k im Vergleich zu größeren Modellen bei steigender Stichprobenanzahl zeigt. Anders als Token-Ebenen-Rauschen ist diese Diversität zeitlich korreliert, bewahrt logische Konsistenz und liefert strukturierte Explorationssignale für die Gradientenschätzung. Daher schlagen wir S2L-PO (Small-to-Large Policy Optimization) vor, ein Framework, das feste kleine Modelle als natürliche Explorer nutzt, um größere Modelle zu trainieren. Um Exploration und Exploitation auszugleichen, entwerfen wir eine progressive Annealing-Strategie, die von Offline-Rollouts des kleinen Modells zum eigenen Sampling des großen Lernenden übergeht. Dieser Wechsel vermeidet elegante Leistungseinbrüche während des Trainings, die durch die Kapazitätsgrenzen des kleinen Modells verursacht werden, und ermöglicht eine schnellere Konvergenz sowie eine höhere Leistungsobergrenze. S2L-PO verbessert die Genauigkeit auf verschiedenen mathematischen Reasoning-Benchmarks (z. B. +8,8 % auf AIME 24 unter Verwendung eines 1,7B-Explorers zur Führung des 8B-Modells) und reduziert gleichzeitig den Rechenaufwand für Rollouts.

English

We identify a new dimension for enhancing rollout diversity in Group Relative Policy Optimization (GRPO) for LLMs. While GRPO relies on diverse rollouts, prevailing strategies primarily increase diversity by injecting more token-level randomness, which may introduce step-wise noise and lead to incoherent trajectories. We uncover that smaller models within the same model family inherently exhibit higher policy-level diversity, indicated by their superior pass@k relative to larger counterparts as sample counts increase. Unlike token-level noise, this diversity is temporally correlated, preserves logical consistency, and provides structured exploration signals for gradient estimation. We thus propose S2L-PO (Small-to-Large Policy Optimization), a framework that leverages fixed small models as natural explorers to train larger models. To balance exploration and exploitation, we design a progressive annealing strategy that transitions from offline small-model rollouts to the large learner's own sampling. This shift elegantly avoids mid-training performance drops caused by the small model's capacity limits, achieving faster convergence and unlocking a higher performance ceiling. S2L-PO improves accuracy on diverse mathematical reasoning benchmarks (e.g., +8.8% on AIME 24 using a 1.7B explorer to guide the 8B model) while reducing rollout compute.