ChatPaper.aiChatPaper

SE-Bench: Бенчмаркинг саморазвития с интериоризацией знаний

SE-Bench: Benchmarking Self-Evolution with Knowledge Internalization

February 4, 2026
Авторы: Jiarui Yuan, Tailin Jin, Weize Chen, Zeyuan Liu, Zhiyuan Liu, Maosong Sun
cs.AI

Аннотация

Истинная самоэволюция требует от агентов способности быть непрерывно обучающимися системами, которые усваивают новый опыт для решения будущих задач. Однако строгое измерение этой фундаментальной способности затруднено двумя проблемами: смешением предшествующих знаний, когда «новые» знания могут присутствовать в предварительно обучающих данных, и смешением сложности рассуждений, когда неудачи могут быть вызваны трудностью задачи, а не неспособностью вспомнить усвоенные знания. Мы представляем SE-Bench — диагностическую среду, которая обфусцирует библиотеку NumPy и её документацию по API в псевдо-новый пакет со случайными идентификаторами. Агенты обучаются усвоению этого пакета и оцениваются на простых задачах кодирования без доступа к документации, что создаёт чистые условия, где задачи тривиальны при знании нового API, но невозможны для базовых моделей без него. Наше исследование выявляет три ключевых вывода: (1) *Парадокс открытой книги*: обучение с опорой на документацию препятствует запоминанию, требуя «обучения с закрытой книгой» для принудительного сжатия знаний в веса модели; (2) *Пробел в обучении с подкреплением (RL)*: стандартное RL не может полностью усвоить новые знания из-за ограничений PPO и отрицательных градиентов; и (3) *Жизнеспособность самоигры*: модели способны обучаться на самостоятельно сгенерированных, зашумлённых задачах в сочетании с SFT, но не с RL. В целом, SE-Bench создаёт строгую диагностическую платформу для исследования самоэволюции через усвоение знаний. Наш код и набор данных доступны по адресу https://github.com/thunlp/SE-Bench.
English
True self-evolution requires agents to act as lifelong learners that internalize novel experiences to solve future problems. However, rigorously measuring this foundational capability is hindered by two obstacles: the entanglement of prior knowledge, where ``new'' knowledge may appear in pre-training data, and the entanglement of reasoning complexity, where failures may stem from problem difficulty rather than an inability to recall learned knowledge. We introduce SE-Bench, a diagnostic environment that obfuscates the NumPy library and its API doc into a pseudo-novel package with randomized identifiers. Agents are trained to internalize this package and evaluated on simple coding tasks without access to documentation, yielding a clean setting where tasks are trivial with the new API doc but impossible for base models without it. Our investigation reveals three insights: (1) the Open-Book Paradox, where training with reference documentation inhibits retention, requiring "Closed-Book Training" to force knowledge compression into weights; (2) the RL Gap, where standard RL fails to internalize new knowledge completely due to PPO clipping and negative gradients; and (3) the viability of Self-Play for internalization, proving models can learn from self-generated, noisy tasks when coupled with SFT, but not RL. Overall, SE-Bench establishes a rigorous diagnostic platform for self-evolution with knowledge internalization. Our code and dataset can be found at https://github.com/thunlp/SE-Bench.
PDF22March 16, 2026