SE-Bench: 知識の内在化による自己進化のベンチマーキング
SE-Bench: Benchmarking Self-Evolution with Knowledge Internalization
February 4, 2026
著者: Jiarui Yuan, Tailin Jin, Weize Chen, Zeyuan Liu, Zhiyuan Liu, Maosong Sun
cs.AI
要旨
真の自己進化には、エージェントが生涯学習者として振る舞い、新たな経験を内在化して将来の問題を解決することが求められる。しかし、この基礎的な能力を厳密に測定することは、2つの障壁によって妨げられている。1つは事前知識の混在(「新規」知識が事前学習データに含まれている可能性)であり、もう1つは推論の複雑さの混在(失敗が知識の想起不能ではなく問題の難易度に起因する可能性)である。本研究では、NumPyライブラリとそのAPIドキュメントを難読化し、ランダム化された識別子を持つ疑似新規パッケージに変換する診断環境「SE-Bench」を提案する。エージェントはこのパッケージを内在化するように訓練され、ドキュメントにアクセスできない状態で単純なコーディングタスクで評価される。これにより、新しいAPIドキュメントがあればタスクは自明であるが、ベースモデル単体では解決不可能な、クリーンな評価設定が実現する。調査を通じて3つの知見が得られた:(1) 参照ドキュメントを用いた訓練は記憶の定着を阻害する「開かれた教科書のパラドックス」が存在し、知識を重みに圧縮するには「閉じた教科書での訓練」が必須であること、(2) PPOのクリッピングと負の勾配により標準的な強化学習(RL)は新規知識を完全に内在化できない「RLギャップ」が生じること、(3) 自己生成によるノイズの多いタスクでも、RLではなく教師ありファインチューニング(SFT)と組み合わせることで内在化が可能である「自己プレイの有効性」が確認された。総括すると、SE-Benchは知識の内在化を伴う自己進化のための厳密な診断プラットフォームを確立する。コードとデータセットはhttps://github.com/thunlp/SE-Benchで公開している。
English
True self-evolution requires agents to act as lifelong learners that internalize novel experiences to solve future problems. However, rigorously measuring this foundational capability is hindered by two obstacles: the entanglement of prior knowledge, where ``new'' knowledge may appear in pre-training data, and the entanglement of reasoning complexity, where failures may stem from problem difficulty rather than an inability to recall learned knowledge. We introduce SE-Bench, a diagnostic environment that obfuscates the NumPy library and its API doc into a pseudo-novel package with randomized identifiers. Agents are trained to internalize this package and evaluated on simple coding tasks without access to documentation, yielding a clean setting where tasks are trivial with the new API doc but impossible for base models without it. Our investigation reveals three insights: (1) the Open-Book Paradox, where training with reference documentation inhibits retention, requiring "Closed-Book Training" to force knowledge compression into weights; (2) the RL Gap, where standard RL fails to internalize new knowledge completely due to PPO clipping and negative gradients; and (3) the viability of Self-Play for internalization, proving models can learn from self-generated, noisy tasks when coupled with SFT, but not RL. Overall, SE-Bench establishes a rigorous diagnostic platform for self-evolution with knowledge internalization. Our code and dataset can be found at https://github.com/thunlp/SE-Bench.