SE-Bench: Avaliação Comparativa da Auto-Evolução com Internalização de Conhecimento

Resumo

A verdadeira auto-evolução exige que os agentes atuem como aprendizes ao longo da vida que internalizam experiências novas para resolver problemas futuros. No entanto, a medição rigorosa dessa capacidade fundamental é dificultada por dois obstáculos: o entrelaçamento do conhecimento prévio, onde um conhecimento "novo" pode aparecer nos dados de pré-treinamento, e o entrelaçamento da complexidade do raciocínio, onde as falhas podem decorrer da dificuldade do problema, e não de uma incapacidade de recordar o conhecimento aprendido. Apresentamos o SE-Bench, um ambiente de diagnóstico que ofusca a biblioteca NumPy e sua documentação de API num pacote pseudo-novo com identificadores randomizados. Os agentes são treinados para internalizar este pacote e avaliados em tarefas simples de codificação sem acesso à documentação, resultando num cenário limpo onde as tarefas são triviais com a nova documentação da API, mas impossíveis para os modelos base sem ela. A nossa investigação revela três conclusões: (1) o Paradoxo do Livro Aberto, onde o treino com documentação de referência inibe a retenção, exigindo "Treino de Livro Fechado" para forçar a compressão do conhecimento nos pesos; (2) o Hiato do RL (Aprendizagem por Reforço), onde o RL padrão falha em internalizar completamente o novo conhecimento devido ao *clipping* do PPO e a gradientes negativos; e (3) a viabilidade do *Self-Play* para internalização, provando que os modelos podem aprender a partir de tarefas ruidosas auto-geradas quando combinadas com SFT (*Supervised Fine-Tuning*), mas não com RL. No geral, o SE-Bench estabelece uma plataforma de diagnóstico rigorosa para a auto-evolução com internalização de conhecimento. O nosso código e conjunto de dados podem ser encontrados em https://github.com/thunlp/SE-Bench.

English

True self-evolution requires agents to act as lifelong learners that internalize novel experiences to solve future problems. However, rigorously measuring this foundational capability is hindered by two obstacles: the entanglement of prior knowledge, where ``new'' knowledge may appear in pre-training data, and the entanglement of reasoning complexity, where failures may stem from problem difficulty rather than an inability to recall learned knowledge. We introduce SE-Bench, a diagnostic environment that obfuscates the NumPy library and its API doc into a pseudo-novel package with randomized identifiers. Agents are trained to internalize this package and evaluated on simple coding tasks without access to documentation, yielding a clean setting where tasks are trivial with the new API doc but impossible for base models without it. Our investigation reveals three insights: (1) the Open-Book Paradox, where training with reference documentation inhibits retention, requiring "Closed-Book Training" to force knowledge compression into weights; (2) the RL Gap, where standard RL fails to internalize new knowledge completely due to PPO clipping and negative gradients; and (3) the viability of Self-Play for internalization, proving models can learn from self-generated, noisy tasks when coupled with SFT, but not RL. Overall, SE-Bench establishes a rigorous diagnostic platform for self-evolution with knowledge internalization. Our code and dataset can be found at https://github.com/thunlp/SE-Bench.

SE-Bench: Avaliação Comparativa da Auto-Evolução com Internalização de Conhecimento

SE-Bench: Benchmarking Self-Evolution with Knowledge Internalization

Resumo

Support