Fördert Reinforcement Learning wirklich die Denkfähigkeit von LLMs über das Basismodell hinaus?Does Reinforcement Learning Really Incentivize Reasoning Capacity in
LLMs Beyond the Base Model?
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat kürzlich bemerkenswerte Erfolge bei der Verbesserung der Fähigkeiten von LLMs (Large Language Models) im Bereich des logischen Denkens gezeigt, insbesondere bei mathematischen und Programmieraufgaben. Es wird allgemein angenommen, dass RLVR es LLMs ermöglicht, sich kontinuierlich selbst zu verbessern und dadurch neue Denkfähigkeiten zu erlangen, die die Kapazität der entsprechenden Basismodelle übertreffen. In dieser Studie wird diese Annahme jedoch kritisch überprüft, indem die pass@k-Metrik mit großen Werten von k gemessen wird, um die Grenzen der Denkfähigkeit der Modelle über eine breite Palette von Modellfamilien und Benchmarks hinweg zu untersuchen. Überraschenderweise führt RL tatsächlich nicht zu grundlegend neuen Denkmustern. Während RL-trainierte Modelle ihre Basismodelle bei kleineren Werten von k (z.B. k=1) übertreffen, können Basismodelle bei großen k-Werten vergleichbare oder sogar höhere pass@k-Werte im Vergleich zu ihren RL-Pendants erreichen. Die von RL-trainierten Modellen generierten Denkpfade sind bereits in der Stichprobenverteilung der Basismodelle enthalten, was darauf hindeutet, dass die meisten Denkfähigkeiten, die in RL-trainierten Modellen zum Ausdruck kommen, bereits von den Basismodellen erworben wurden. Eine weitere Analyse zeigt, dass das RL-Training die Leistung verbessert, indem es die Ausgabeverteilung des Modells in Richtung von Pfaden verzerrt, die mit höherer Wahrscheinlichkeit Belohnungen liefern und somit korrekte Antworten effizienter abtasten. Dies führt jedoch auch zu einer engeren Grenze der Denkfähigkeit im Vergleich zu Basismodellen. Ähnliche Ergebnisse werden bei visuellen Denkaufgaben beobachtet, die mit RLVR trainiert wurden. Darüber hinaus stellen wir fest, dass Distillation tatsächlich neues Wissen in das Modell einführen kann, im Gegensatz zu RLVR. Diese Erkenntnisse verdeutlichen eine kritische Einschränkung von RLVR bei der Weiterentwicklung der Denkfähigkeiten von LLMs, was uns dazu zwingt, die Auswirkungen von RL-Training auf LLMs im Bereich des logischen Denkens grundlegend zu überdenken und die Notwendigkeit eines besseren Paradigmas zu betonen. Projektseite: https://limit-of-RLVR.github.io