Absolute Zero: Verstärktes Selbstspiel-Reasoning ohne DatenAbsolute Zero: Reinforced Self-play Reasoning with Zero Data
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat vielversprechende Ansätze gezeigt, um die Fähigkeiten großer Sprachmodelle im Bereich des logischen Denkens zu verbessern, indem direkt aus ergebnisbasierten Belohnungen gelernt wird. Aktuelle RLVR-Arbeiten, die im Null-Setting operieren, verzichten auf eine Überwachung bei der Beschriftung des Denkprozesses, sind jedoch weiterhin auf manuell kuratierte Sammlungen von Fragen und Antworten für das Training angewiesen. Die Knappheit hochwertiger, von Menschen erstellter Beispiele wirft Bedenken hinsichtlich der langfristigen Skalierbarkeit der Abhängigkeit von menschlicher Überwachung auf, eine Herausforderung, die bereits im Bereich des Vortrainierens von Sprachmodellen erkennbar ist. Darüber hinaus könnte in einer hypothetischen Zukunft, in der KI die menschliche Intelligenz übertrifft, die Bereitstellung von Aufgaben durch Menschen nur begrenztes Lernpotenzial für ein superintelligentes System bieten. Um diese Bedenken zu adressieren, schlagen wir ein neues RLVR-Paradigma namens Absolute Zero vor, bei dem ein einzelnes Modell lernt, Aufgaben vorzuschlagen, die seinen eigenen Lernfortschritt maximieren, und seine Denkfähigkeiten verbessert, indem es diese Aufgaben löst, ohne auf externe Daten angewiesen zu sein. Im Rahmen dieses Paradigmas führen wir den Absolute Zero Reasoner (AZR) ein, ein System, das sein Trainingscurriculum und seine Denkfähigkeiten selbst weiterentwickelt, indem es einen Code-Executor verwendet, um sowohl vorgeschlagene Code-Denkaufgaben zu validieren als auch Antworten zu verifizieren, und somit als einheitliche Quelle verifizierbarer Belohnung dient, um offenes und dennoch fundiertes Lernen zu leiten. Obwohl AZR vollständig ohne externe Daten trainiert wurde, erreicht es insgesamt state-of-the-art (SOTA) Leistungen bei Aufgaben zum Programmieren und mathematischen Denken und übertrifft bestehende Null-Setting-Modelle, die auf Zehntausende von domänenspezifischen, von Menschen kuratierten Beispielen angewiesen sind. Darüber hinaus zeigen wir, dass AZR effektiv auf verschiedene Modellgrößen angewendet werden kann und mit verschiedenen Modellklassen kompatibel ist.