SE-Bench : Évaluation comparative de l'auto-évolution par internalisation des connaissances

Résumé

Une véritable auto-évolution nécessite que les agents agissent comme des apprenants permanents qui internalisent de nouvelles expériences pour résoudre des problèmes futurs. Cependant, la mesure rigoureuse de cette capacité fondamentale est entravée par deux obstacles : l’intrication des connaissances préalables, où les connaissances « nouvelles » peuvent apparaître dans les données de pré-entraînement, et l’intrication de la complexité du raisonnement, où les échecs peuvent provenir de la difficulté du problème plutôt que d’une incapacité à rappeler les connaissances acquises. Nous présentons SE-Bench, un environnement de diagnostic qui obscurcit la bibliothèque NumPy et sa documentation API en un package pseudo-nouveau avec des identifiants randomisés. Les agents sont entraînés à internaliser ce package et évalués sur des tâches de codage simples sans accès à la documentation, créant un cadre épuré où les tâches sont triviales avec la nouvelle documentation API mais impossibles pour les modèles de base sans celle-ci. Notre investigation révèle trois insights : (1) le Paradoxe du Livre Ouvert, où l’entraînement avec une documentation de référence inhibe la rétention, nécessitant un « Entraînement Livre Fermé » pour forcer la compression des connaissances dans les poids ; (2) l’Écart du RL, où l’apprentissage par renforcement standard échoue à internaliser complètement de nouvelles connaissances en raison du clipping PPO et des gradients négatifs ; et (3) la viabilité du Jeu Auto-supervisé pour l’internalisation, prouvant que les modèles peuvent apprendre à partir de tâches bruitées auto-générées lorsqu’elles sont couplées au SFT, mais pas au RL. Globalement, SE-Bench établit une plateforme de diagnostic rigoureuse pour l’auto-évolution avec internalisation des connaissances. Notre code et notre jeu de données sont disponibles à l’adresse https://github.com/thunlp/SE-Bench.

English

True self-evolution requires agents to act as lifelong learners that internalize novel experiences to solve future problems. However, rigorously measuring this foundational capability is hindered by two obstacles: the entanglement of prior knowledge, where ``new'' knowledge may appear in pre-training data, and the entanglement of reasoning complexity, where failures may stem from problem difficulty rather than an inability to recall learned knowledge. We introduce SE-Bench, a diagnostic environment that obfuscates the NumPy library and its API doc into a pseudo-novel package with randomized identifiers. Agents are trained to internalize this package and evaluated on simple coding tasks without access to documentation, yielding a clean setting where tasks are trivial with the new API doc but impossible for base models without it. Our investigation reveals three insights: (1) the Open-Book Paradox, where training with reference documentation inhibits retention, requiring "Closed-Book Training" to force knowledge compression into weights; (2) the RL Gap, where standard RL fails to internalize new knowledge completely due to PPO clipping and negative gradients; and (3) the viability of Self-Play for internalization, proving models can learn from self-generated, noisy tasks when coupled with SFT, but not RL. Overall, SE-Bench establishes a rigorous diagnostic platform for self-evolution with knowledge internalization. Our code and dataset can be found at https://github.com/thunlp/SE-Bench.

SE-Bench : Évaluation comparative de l'auto-évolution par internalisation des connaissances

SE-Bench: Benchmarking Self-Evolution with Knowledge Internalization

Résumé

Support