SE-Bench: Benchmarking van Zelf-evolutie met Kennisinternalisatie

Samenvatting

Echte zelf-evolutie vereist dat agenten fungeren als levenslang lerenden die nieuwe ervaringen internaliseren om toekomstige problemen op te lossen. Het rigoureus meten van deze fundamentele capaciteit wordt echter belemmerd door twee obstakels: de verstrengeling van voorkennis, waarbij "nieuwe" kennis kan voorkomen in pre-trainingsdata, en de verstrengeling van redeneercomplexiteit, waarbij fouten kunnen voortkomen uit probleemcomplexiteit in plaats van het onvermogen om geleerde kennis op te roepen. Wij introduceren SE-Bench, een diagnostische omgeving die de NumPy-bibliotheek en haar API-documentatie omvormt tot een pseudo-nieuw pakket met gerandomiseerde identificatoren. Agenten worden getraind om dit pakket te internaliseren en geëvalueerd op eenvoudige codeertaken zonder toegang tot documentatie, wat een zuivere setting creëert waarin taken triviaal zijn met de nieuwe API-doc maar onmogelijk voor basismodellen zonder deze. Ons onderzoek onthult drie inzichten: (1) de Openboek-paradox, waarbij trainen met referentiedocumentatie retentie belemmert, wat "Geslotenboek-training" vereist om kenniscompressie in gewichten af te dwingen; (2) de RL-kloof, waarbij standaard reinforcement learning er niet in slaagt nieuwe kennis volledig te internaliseren door PPO-clipping en negatieve gradiënten; en (3) de haalbaarheid van zelfspel voor internalisatie, waarbij modellen kunnen leren door zelf gegenereerde, ruizige taken wanneer gecombineerd met SFT, maar niet met RL. Over het geheel genomen biedt SE-Bench een rigoureus diagnostisch platform voor zelf-evolutie met kennisinternalisatie. Onze code en dataset zijn beschikbaar op https://github.com/thunlp/SE-Bench.

English

True self-evolution requires agents to act as lifelong learners that internalize novel experiences to solve future problems. However, rigorously measuring this foundational capability is hindered by two obstacles: the entanglement of prior knowledge, where ``new'' knowledge may appear in pre-training data, and the entanglement of reasoning complexity, where failures may stem from problem difficulty rather than an inability to recall learned knowledge. We introduce SE-Bench, a diagnostic environment that obfuscates the NumPy library and its API doc into a pseudo-novel package with randomized identifiers. Agents are trained to internalize this package and evaluated on simple coding tasks without access to documentation, yielding a clean setting where tasks are trivial with the new API doc but impossible for base models without it. Our investigation reveals three insights: (1) the Open-Book Paradox, where training with reference documentation inhibits retention, requiring "Closed-Book Training" to force knowledge compression into weights; (2) the RL Gap, where standard RL fails to internalize new knowledge completely due to PPO clipping and negative gradients; and (3) the viability of Self-Play for internalization, proving models can learn from self-generated, noisy tasks when coupled with SFT, but not RL. Overall, SE-Bench establishes a rigorous diagnostic platform for self-evolution with knowledge internalization. Our code and dataset can be found at https://github.com/thunlp/SE-Bench.

SE-Bench: Benchmarking van Zelf-evolutie met Kennisinternalisatie

SE-Bench: Benchmarking Self-Evolution with Knowledge Internalization

Samenvatting

Support