Die Grenzen des LLM-Denkens erweitern

papers.abstract

Aktuelle Online-Reinforcement-Learning (RL)-Algorithmen wie GRPO weisen eine zentrale Einschränkung im Bereich des LLM-Reasonings auf: Sie können nicht aus Problemen lernen, die für das Modell „unlösbar“ sind. Mit anderen Worten können sie die Leistung nur bei Problemen verbessern, bei denen das Modell in der Lage ist, die richtige Antwort zu explorieren. Folglich bleibt die „Obergrenze“ des Modells nach dem RL-Training unverändert, obwohl die Wahrscheinlichkeit, einfachere, lösbare Probleme zu bewältigen, steigen kann. Diese schwierigen Beispiele können nicht zum Training beitragen, da keine Rollouts Belohnungen liefern und somit keine Gradienten erzeugt werden. Um das Lernen aus diesen schwierigen Beispielen zu ermöglichen, schlagen wir NuRL vor, eine „Nudging“-Methode, die darauf abzielt, die Obergrenze des LLM-Reasonings mithilfe selbstgenerierter Hinweise zu erweitern, d. h. abstrakter Hinweise, die dazu beitragen, die Problemkomplexität für das Modell zu reduzieren. Gegeben eine Frage und ihre korrekte Antwort, generiert das Modell eine Chain-of-Thought (CoT) und erstellt dann einen Hinweis, der das Kernwissen zur Lösung des Problems enthält. Während des Trainings generieren wir G Rollouts aus der Basispolitik und verwenden die Erfolgsrate, um zu entscheiden, ob der Hinweis injiziert werden soll. Bei schwierigen Beispielen mit einer Erfolgsrate von 0 % injizieren wir den Hinweis und generieren eine neue Charge von Trajektorien. Dies bringt zwei Vorteile mit sich: (1) Der Hinweis steigert die Erfolgsrate (von 0 % auf einen Wert größer null), wodurch Trainingssignale für zuvor unlösbare Beispiele eingeführt werden, und (2) die Hinweise werden selbst generiert, was eine Verteilungsschiefe vermeidet und keine externen Modelle erfordert. NuRL erzielt konsistente Verbesserungen über 6 Benchmarks und 3 Modelle hinweg, während es komplementär zur Skalierung zur Testzeit bleibt. Bemerkenswerterweise kann NuRL die Obergrenze des Modells erhöhen, während GRPO die pass@1024-Rate im Vergleich zum Basismodell unverändert lässt. Darüber hinaus präsentieren wir eine systematische Studie darüber, was einen effektiven Hinweis ausmacht und wann Hinweise am nützlichsten sind. Interessanterweise sind die besten Hinweise abstrakt und hochrangig und am vorteilhaftesten, wenn sie notwendigerweise und nach der Konvergenz von GRPO angewendet werden.

English

Current online reinforcement learning (RL) algorithms like GRPO share a key limitation in LLM reasoning: they cannot learn from problems that are "unsolvable" to the model. In other words, they can only improve performance on problems where the model is capable of exploring the correct answer. Consequently, the model's "upper limit" remains unchanged after RL training, even though the likelihood of solving easier, solvable problems may increase. These hard samples cannot contribute to training, as no rollouts yield rewards and thus no gradients are produced. To unlock learning from these hard samples, we propose NuRL, a "nudging" method that aims to push the upper bound of LLM reasoning using self-generated hints, i.e., abstract cues that help reduce the problem difficulty for the model. Given a question and its gold answer, the model generates a CoT and then produces a hint containing the core knowledge needed to solve the problem. During training, we generate G rollouts from the base policy and use the pass rate to decide whether the hint should be injected. For hard samples with a 0% pass rate, we inject the hint and regenerate a new batch of trajectories. This yields two benefits: (1) the hint boosts pass rates (from 0% to non-zero), thereby introducing training signals for previously unsolvable samples, and (2) the hints are self-generated, avoiding distributional shift and do not rely on external models. NuRL achieves consistent improvements across 6 benchmarks and 3 models, while remaining complementary to test-time scaling. Notably, NuRL can raise the model's upper limit, whereas GRPO leaves pass@1024 unchanged from the base model. Furthermore, we present a systematic study of what makes an effective hint and when hints are most useful. Interestingly, the best hints are abstract and high-level, and are most beneficial when applied necessarily and after GRPO has converged.

Die Grenzen des LLM-Denkens erweitern

Nudging the Boundaries of LLM Reasoning

papers.abstract

Support