SkillEvolBench: Benchmarking da Evolução da Experiência Episódica para Habilidades Processuais

Resumo

Agentes baseados em modelos de linguagem de grande porte acumulam trajetórias episódicas ricas ao resolver tarefas do mundo real, mas ainda não está claro se tais experiências podem ser destiladas em habilidades procedurais reutilizáveis. Apresentamos o SkillEvolBench, um benchmark diagnóstico para avaliar essa transição do reuso de experiências para a formação de habilidades. Ele contém 180 tarefas distribuídas em seis ambientes de agentes do mundo real, organizadas em famílias de tarefas condicionadas por papéis, com procedimentos latentes compartilhados. Os agentes aprendem a partir de tarefas de aquisição, atualizam uma biblioteca externa de habilidades usando trajetórias compactadas e feedback do verificador, e então enfrentam tarefas de implantação congeladas que testam mudanças de contexto, atalhos adversários e composição. Ao comparar a evolução de habilidades autogeradas e com ponto de partida curado contra controles sem habilidades e com trajetórias brutas, o SkillEvolBench separa a abstração procedural da capacidade base, conhecimento prévio curado e reuso direto de traços episódicos. Em dez configurações de modelo e três arcabouços de agentes, descobrimos que os agentes atuais frequentemente se adaptam localmente, mas raramente formam habilidades robustas e reutilizáveis. Condições baseadas em habilidades podem melhorar a aquisição ou repetição, e modelos individuais às vezes ganham em eixos específicos de implantação, mas esses ganhos são instáveis sob implantação congelada. O reuso de trajetórias brutas frequentemente supera as habilidades destiladas, sugerindo que os procedimentos atuais de abstração descartam pistas contextuais e procedurais que permanecem úteis para tarefas futuras. Análises de capacidade e custo mostram ainda que escrever mais habilidades ou maiores bibliotecas de recursos do Nível 3 não é suficiente: atualizações adicionais podem melhorar a cobertura, mas introduzem deriva específica de episódios e desordem procedural. Esses achados posicionam o SkillEvolBench como um ambiente de teste para medir quando uma experiência pontual se torna conhecimento procedural durável, e não memória local de tarefa.

English

Large language model (LLM) agents accumulate rich episodic trajectories while solving real-world tasks, but it remains unclear whether such experience can be distilled into reusable procedural skills. We introduce SkillEvolBench, a diagnostic benchmark for evaluating this step from experience reuse to skill formation. It contains 180 tasks across six real-world agent environments, organized into role-conditioned task families with shared latent procedures. Agents learn from acquisition tasks, update an external skill library using compacted trajectories and verifier feedback, and then face frozen deployment tasks testing context shift, adversarial shortcuts, and composition. By comparing self-generated and curated-start skill evolution against no-skill and raw-trajectory controls, SkillEvolBench separates procedural abstraction from base capability, curated prior knowledge, and direct reuse of episodic traces. Across ten model configurations and three agent harnesses, we find that current agents often adapt locally but rarely form robust reusable skills. Skill-based conditions can improve acquisition or replay, and individual models sometimes gain on specific deployment axes, but these gains are unstable under frozen deployment. Raw-trajectory reuse frequently outperforms distilled skills, suggesting that current abstraction procedures discard contextual and procedural cues that remain useful for future tasks. Capacity and cost analyses further show that writing more skills or larger Tier-3 resource libraries is not sufficient: additional updates can improve coverage while introducing episode-specific drift and procedural clutter. These findings position SkillEvolBench as a testbed for measuring when one-off experience becomes durable procedural knowledge rather than task-local memory.