SE-Bench: 지식 내재화를 통한 자기 진화 성능 평가
SE-Bench: Benchmarking Self-Evolution with Knowledge Internalization
February 4, 2026
저자: Jiarui Yuan, Tailin Jin, Weize Chen, Zeyuan Liu, Zhiyuan Liu, Maosong Sun
cs.AI
초록
진정한 자기 진화는 에이전트가 새로운 경험을 내재화하여 미래 문제를 해결하는 평생 학습자로 행동할 것을 요구합니다. 그러나 이러한 기초 능력을 엄격하게 측정하는 데는 두 가지 장애가 존재합니다: 사전 지식의 혼재(즉, '새로운' 지식이 사전 학습 데이터에 포함되어 있을 수 있음)와 추론 복잡성의 혼재(즉, 실패가 학습된 지식을 회상하지 못하는 것보다 문제 난이도에서 비롯될 수 있음)입니다. 본 연구에서는 NumPy 라이브러리와 그 API 문서를 무작위 식별자를 가진 유사-새로운 패키지로 난독화하는 진단 환경인 SE-Bench를 소개합니다. 에이전트는 이 패키지를 내재화하도록 훈련되며, 문서에 접근하지 못한 상태에서 간단한 코딩 과제로 평가됩니다. 이를 통해 새로운 API 문서가 있으면 과제가 사소해지지만, 해당 문서 없이는 기본 모델이 해결할 수 없는 깔끔한 실험 환경을 조성합니다. 우리의 연구를 통해 세 가지 통찰을 얻었습니다: (1) 참조 문서와 함께 훈련하면 기억 억제가 발생하여 지식을 가중치로 압축시키기 위해 '폐쇄형 훈련'이 필요하다는 '개방형 교과서 역설', (2) PPO 클리핑과 음의 기울기로 인해 표준 강화 학습이 새로운 지식을 완전히 내재화하지 못한다는 'RL 격차', (3) 자기 생성된 노이즈가 있는 과제와 SFT를 결합할 경우 모델이 내재화를 학습할 수 있으나 RL에서는 불가능하다는 '자기 대결의 실현 가능성'입니다. 전체적으로 SE-Bench는 지식 내재화를 통한 자기 진화를 위한 엄격한 진단 플랫폼을 구축합니다. 코드와 데이터셋은 https://github.com/thunlp/SE-Bench에서 확인할 수 있습니다.
English
True self-evolution requires agents to act as lifelong learners that internalize novel experiences to solve future problems. However, rigorously measuring this foundational capability is hindered by two obstacles: the entanglement of prior knowledge, where ``new'' knowledge may appear in pre-training data, and the entanglement of reasoning complexity, where failures may stem from problem difficulty rather than an inability to recall learned knowledge. We introduce SE-Bench, a diagnostic environment that obfuscates the NumPy library and its API doc into a pseudo-novel package with randomized identifiers. Agents are trained to internalize this package and evaluated on simple coding tasks without access to documentation, yielding a clean setting where tasks are trivial with the new API doc but impossible for base models without it. Our investigation reveals three insights: (1) the Open-Book Paradox, where training with reference documentation inhibits retention, requiring "Closed-Book Training" to force knowledge compression into weights; (2) the RL Gap, where standard RL fails to internalize new knowledge completely due to PPO clipping and negative gradients; and (3) the viability of Self-Play for internalization, proving models can learn from self-generated, noisy tasks when coupled with SFT, but not RL. Overall, SE-Bench establishes a rigorous diagnostic platform for self-evolution with knowledge internalization. Our code and dataset can be found at https://github.com/thunlp/SE-Bench.