SE-Bench: Бенчмаркинг саморазвития с интериоризацией знаний

Аннотация

Истинная самоэволюция требует от агентов способности быть непрерывно обучающимися системами, которые усваивают новый опыт для решения будущих задач. Однако строгое измерение этой фундаментальной способности затруднено двумя проблемами: смешением предшествующих знаний, когда «новые» знания могут присутствовать в предварительно обучающих данных, и смешением сложности рассуждений, когда неудачи могут быть вызваны трудностью задачи, а не неспособностью вспомнить усвоенные знания. Мы представляем SE-Bench — диагностическую среду, которая обфусцирует библиотеку NumPy и её документацию по API в псевдо-новый пакет со случайными идентификаторами. Агенты обучаются усвоению этого пакета и оцениваются на простых задачах кодирования без доступа к документации, что создаёт чистые условия, где задачи тривиальны при знании нового API, но невозможны для базовых моделей без него. Наше исследование выявляет три ключевых вывода: (1) *Парадокс открытой книги*: обучение с опорой на документацию препятствует запоминанию, требуя «обучения с закрытой книгой» для принудительного сжатия знаний в веса модели; (2) *Пробел в обучении с подкреплением (RL)*: стандартное RL не может полностью усвоить новые знания из-за ограничений PPO и отрицательных градиентов; и (3) *Жизнеспособность самоигры*: модели способны обучаться на самостоятельно сгенерированных, зашумлённых задачах в сочетании с SFT, но не с RL. В целом, SE-Bench создаёт строгую диагностическую платформу для исследования самоэволюции через усвоение знаний. Наш код и набор данных доступны по адресу https://github.com/thunlp/SE-Bench.

English

True self-evolution requires agents to act as lifelong learners that internalize novel experiences to solve future problems. However, rigorously measuring this foundational capability is hindered by two obstacles: the entanglement of prior knowledge, where ``new'' knowledge may appear in pre-training data, and the entanglement of reasoning complexity, where failures may stem from problem difficulty rather than an inability to recall learned knowledge. We introduce SE-Bench, a diagnostic environment that obfuscates the NumPy library and its API doc into a pseudo-novel package with randomized identifiers. Agents are trained to internalize this package and evaluated on simple coding tasks without access to documentation, yielding a clean setting where tasks are trivial with the new API doc but impossible for base models without it. Our investigation reveals three insights: (1) the Open-Book Paradox, where training with reference documentation inhibits retention, requiring "Closed-Book Training" to force knowledge compression into weights; (2) the RL Gap, where standard RL fails to internalize new knowledge completely due to PPO clipping and negative gradients; and (3) the viability of Self-Play for internalization, proving models can learn from self-generated, noisy tasks when coupled with SFT, but not RL. Overall, SE-Bench establishes a rigorous diagnostic platform for self-evolution with knowledge internalization. Our code and dataset can be found at https://github.com/thunlp/SE-Bench.

SE-Bench: Бенчмаркинг саморазвития с интериоризацией знаний

SE-Bench: Benchmarking Self-Evolution with Knowledge Internalization

Аннотация

Support