SE-Bench: Benchmark delle Auto-Evoluzioni con Internalizzazione della Conoscenza

Abstract

Una vera auto-evoluzione richiede che gli agenti agiscano come apprendisti permanenti che interiorizzano nuove esperienze per risolvere problemi futuri. Tuttavia, la misurazione rigorosa di questa capacità fondamentale è ostacolata da due problemi: l’interferenza della conoscenza pregressa, per cui una conoscenza "nuova" potrebbe già essere presente nei dati di pre-addestramento, e l’interferenza della complessità del ragionamento, per cui gli errori potrebbero derivare dalla difficoltà del problema piuttosto che dall’incapacità di richiamare conoscenze apprese. Introduciamo SE-Bench, un ambiente diagnostico che offusca la libreria NumPy e la sua documentazione API in un pacchetto pseudo-nuovo con identificatori randomizzati. Gli agenti vengono addestrati a interiorizzare questo pacchetto e valutati su semplici task di programmazione senza accesso alla documentazione, creando un ambiente controllato in cui i compiti sono banali con la nuova documentazione API ma impossibili per i modelli base senza di essa. La nostra indagine rivela tre intuizioni: (1) il Paradosso del Libro Aperto, per cui l'addestramento con documentazione di riferimento inibisce la ritenzione, richiedendo un "Addestramento a Libro Chiuso" per forzare la compressione della conoscenza nei pesi; (2) il Divario dell’Apprendimento per Rinforzo (RL), dove l'RL standard non riesce a interiorizzare completamente nuove conoscenze a causa del clipping PPO e dei gradienti negativi; e (3) la fattibilità dello Self-Play per l'interiorizzazione, dimostrando che i modelli possono apprendere da task auto-generati e rumorosi se abbinati all’SFT, ma non all’RL. In sintesi, SE-Bench stabilisce una piattaforma diagnostica rigorosa per l'auto-evoluzione con interiorizzazione della conoscenza. Il nostro codice e dataset sono disponibili su https://github.com/thunlp/SE-Bench.

English

True self-evolution requires agents to act as lifelong learners that internalize novel experiences to solve future problems. However, rigorously measuring this foundational capability is hindered by two obstacles: the entanglement of prior knowledge, where ``new'' knowledge may appear in pre-training data, and the entanglement of reasoning complexity, where failures may stem from problem difficulty rather than an inability to recall learned knowledge. We introduce SE-Bench, a diagnostic environment that obfuscates the NumPy library and its API doc into a pseudo-novel package with randomized identifiers. Agents are trained to internalize this package and evaluated on simple coding tasks without access to documentation, yielding a clean setting where tasks are trivial with the new API doc but impossible for base models without it. Our investigation reveals three insights: (1) the Open-Book Paradox, where training with reference documentation inhibits retention, requiring "Closed-Book Training" to force knowledge compression into weights; (2) the RL Gap, where standard RL fails to internalize new knowledge completely due to PPO clipping and negative gradients; and (3) the viability of Self-Play for internalization, proving models can learn from self-generated, noisy tasks when coupled with SFT, but not RL. Overall, SE-Bench establishes a rigorous diagnostic platform for self-evolution with knowledge internalization. Our code and dataset can be found at https://github.com/thunlp/SE-Bench.

SE-Bench: Benchmark delle Auto-Evoluzioni con Internalizzazione della Conoscenza

SE-Bench: Benchmarking Self-Evolution with Knowledge Internalization

Abstract

Support