SE-Bench: Evaluación Comparativa de la Auto-evolución con Internalización del Conocimiento

Resumen

La verdadera auto-evolución requiere que los agentes actúen como aprendices permanentes que internalizan experiencias novedosas para resolver problemas futuros. Sin embargo, medir rigurosamente esta capacidad fundamental se ve obstaculizada por dos obstáculos: el entrelazamiento del conocimiento previo, donde el conocimiento "nuevo" puede aparecer en los datos de pre-entrenamiento, y el entrelazamiento de la complejidad del razonamiento, donde los fallos pueden deberse a la dificultad del problema más que a una incapacidad para recordar el conocimiento aprendido. Presentamos SE-Bench, un entorno diagnóstico que ofusca la biblioteca NumPy y su documentación API en un paquete pseudo-novedoso con identificadores aleatorizados. Los agentes son entrenados para internalizar este paquete y evaluados en tareas de codificación simples sin acceso a la documentación, proporcionando un entorno limpio donde las tareas son triviales con la nueva documentación API pero imposibles para los modelos base sin ella. Nuestra investigación revela tres hallazgos: (1) la Paradoja del Libro Abierto, donde el entrenamiento con documentación de referencia inhibe la retención, requiriendo un "Entrenamiento de Libro Cerrado" para forzar la compresión del conocimiento en los pesos; (2) la Brecha del RL, donde el RL estándar falla en internalizar completamente el nuevo conocimiento debido al recorte PPO y los gradientes negativos; y (3) la viabilidad del Auto-Juego para la internalización, demostrando que los modelos pueden aprender de tareas ruidosas auto-generadas cuando se combinan con SFT, pero no con RL. En general, SE-Bench establece una plataforma de diagnóstico rigurosa para la auto-evolución con internalización de conocimiento. Nuestro código y dataset pueden encontrarse en https://github.com/thunlp/SE-Bench.

English

True self-evolution requires agents to act as lifelong learners that internalize novel experiences to solve future problems. However, rigorously measuring this foundational capability is hindered by two obstacles: the entanglement of prior knowledge, where ``new'' knowledge may appear in pre-training data, and the entanglement of reasoning complexity, where failures may stem from problem difficulty rather than an inability to recall learned knowledge. We introduce SE-Bench, a diagnostic environment that obfuscates the NumPy library and its API doc into a pseudo-novel package with randomized identifiers. Agents are trained to internalize this package and evaluated on simple coding tasks without access to documentation, yielding a clean setting where tasks are trivial with the new API doc but impossible for base models without it. Our investigation reveals three insights: (1) the Open-Book Paradox, where training with reference documentation inhibits retention, requiring "Closed-Book Training" to force knowledge compression into weights; (2) the RL Gap, where standard RL fails to internalize new knowledge completely due to PPO clipping and negative gradients; and (3) the viability of Self-Play for internalization, proving models can learn from self-generated, noisy tasks when coupled with SFT, but not RL. Overall, SE-Bench establishes a rigorous diagnostic platform for self-evolution with knowledge internalization. Our code and dataset can be found at https://github.com/thunlp/SE-Bench.