SE-Bench: Benchmarking der Selbstevolution durch Wissensinternalisierung
SE-Bench: Benchmarking Self-Evolution with Knowledge Internalization
February 4, 2026
Autoren: Jiarui Yuan, Tailin Jin, Weize Chen, Zeyuan Liu, Zhiyuan Liu, Maosong Sun
cs.AI
Zusammenfassung
Echte Selbstevolution erfordert, dass Agenten als lebenslang Lernende agieren, die neue Erfahrungen internalisieren, um künftige Probleme zu lösen. Die rigorose Messung dieser grundlegenden Fähigkeit wird jedoch durch zwei Hindernisse erschwert: die Vermengung von Vorwissen, bei dem „neues“ Wissen in Vortrainingsdaten auftauchen kann, und die Vermengung von Reasoning-Komplexität, bei der Fehler auf die Schwierigkeit des Problems zurückgehen können statt auf die Unfähigkeit, gelerntes Wissen abzurufen. Wir stellen SE-Bench vor, eine diagnostische Umgebung, die die NumPy-Bibliothek und ihre API-Dokumentation in ein pseudo-neues Paket mit randomisierten Bezeichnern verschleiert. Agenten werden trainiert, dieses Paket zu internalisieren und an einfachen Programmieraufgaben evaluiert, ohne Zugang zur Dokumentation zu haben. Dies schafft eine saubere Testumgebung, in der Aufgaben mit der neuen API-Dokumentation trivial, für Basismodelle ohne diese jedoch unmöglich sind. Unsere Untersuchung liefert drei Erkenntnisse: (1) das Open-Book-Paradoxon, bei dem Training mit Referenzdokumentation die Wissensspeicherung hemmt, sodass „Closed-Book Training“ nötig ist, um Wissenskompression in den Gewichten zu erzwingen; (2) die RL-Lücke, bei der Standard-Reinforcement-Learning neues Wissen aufgrund von PPO-Clipping und negativen Gradienten nicht vollständig internalisiert; und (3) die Tauglichkeit von Self-Play zur Internalisation, wobei Modelle aus selbstgenerierten, verrauschten Aufgaben in Kombination mit SFT, aber nicht mit RL, lernen können. Insgesamt etabliert SE-Bench eine rigorose diagnostische Plattform für Selbstevolution durch Wissensinternalisierung. Unser Code und Datensatz sind unter https://github.com/thunlp/SE-Bench verfügbar.
English
True self-evolution requires agents to act as lifelong learners that internalize novel experiences to solve future problems. However, rigorously measuring this foundational capability is hindered by two obstacles: the entanglement of prior knowledge, where ``new'' knowledge may appear in pre-training data, and the entanglement of reasoning complexity, where failures may stem from problem difficulty rather than an inability to recall learned knowledge. We introduce SE-Bench, a diagnostic environment that obfuscates the NumPy library and its API doc into a pseudo-novel package with randomized identifiers. Agents are trained to internalize this package and evaluated on simple coding tasks without access to documentation, yielding a clean setting where tasks are trivial with the new API doc but impossible for base models without it. Our investigation reveals three insights: (1) the Open-Book Paradox, where training with reference documentation inhibits retention, requiring "Closed-Book Training" to force knowledge compression into weights; (2) the RL Gap, where standard RL fails to internalize new knowledge completely due to PPO clipping and negative gradients; and (3) the viability of Self-Play for internalization, proving models can learn from self-generated, noisy tasks when coupled with SFT, but not RL. Overall, SE-Bench establishes a rigorous diagnostic platform for self-evolution with knowledge internalization. Our code and dataset can be found at https://github.com/thunlp/SE-Bench.