絶対零度:ゼロデータによる強化学習型セルフプレイ推論Absolute Zero: Reinforced Self-play Reasoning with Zero Data
検証可能な報酬を用いた強化学習(RLVR)は、結果ベースの報酬から直接学習することで、大規模言語モデルの推論能力を向上させる可能性を示しています。ゼロ設定で動作する最近のRLVR研究では、推論プロセスのラベル付けにおける監督を回避していますが、依然として訓練用の手作業でキュレートされた質問と回答のコレクションに依存しています。高品質な人間による事例の不足は、言語モデルの事前学習の領域ですでに明らかなように、人間の監督に依存することの長期的な拡張性に関する懸念を引き起こしています。さらに、AIが人間の知能を超える仮想的な未来においては、人間が提供するタスクは超知能システムにとって限られた学習の可能性しか提供しないかもしれません。これらの懸念に対処するため、我々は「Absolute Zero」と呼ばれる新しいRLVRパラダイムを提案します。このパラダイムでは、単一のモデルが自身の学習進捗を最大化するタスクを提案し、それらを解決することで推論能力を向上させ、外部データに一切依存しません。このパラダイムの下で、我々はAbsolute Zero Reasoner(AZR)を紹介します。AZRは、コード実行器を使用して提案されたコード推論タスクを検証し、回答を確認することで、訓練カリキュラムと推論能力を自己進化させ、検証可能な報酬の統一された源として、開放的でありながら根拠のある学習を導きます。外部データを一切使用せずに訓練されたにもかかわらず、AZRはコーディングと数学的推論タスクにおいて全体的にSOTA性能を達成し、数万のドメイン内の人間によるキュレートされた事例に依存する既存のゼロ設定モデルを上回ります。さらに、AZRが異なるモデルスケールに効果的に適用可能であり、さまざまなモデルクラスと互換性があることを実証します。