SkillEvolBench: Evaluación comparativa de la evolución de la experiencia episódica a las habilidades procedimentales

Resumen

Los agentes de modelos de lenguaje de gran escala (LLM) acumulan trayectorias episódicas ricas mientras resuelven tareas del mundo real, pero aún no está claro si dicha experiencia puede destilarse en habilidades procedimentales reutilizables. Presentamos SkillEvolBench, un punto de referencia diagnóstico para evaluar este paso desde la reutilización de la experiencia hasta la formación de habilidades. Contiene 180 tareas distribuidas en seis entornos de agente del mundo real, organizadas en familias de tareas condicionadas por roles con procedimientos latentes compartidos. Los agentes aprenden de tareas de adquisición, actualizan una biblioteca de habilidades externa utilizando trayectorias compactadas y retroalimentación del verificador, y luego enfrentan tareas de despliegue congelado que evalúan cambio de contexto, atajos adversariales y composición. Al comparar la evolución de habilidades autogeneradas y de inicio curado con controles sin habilidad y de trayectoria en bruto, SkillEvolBench separa la abstracción procedimental de la capacidad base, el conocimiento previo curado y la reutilización directa de rastros episódicos. A través de diez configuraciones de modelo y tres plataformas de agente, encontramos que los agentes actuales a menudo se adaptan localmente pero rara vez forman habilidades reutilizables robustas. Las condiciones basadas en habilidades pueden mejorar la adquisición o la repetición, y algunos modelos individuales ganan en ejes específicos de despliegue, pero estas ganancias son inestables bajo despliegue congelado. La reutilización de trayectorias en bruto supera con frecuencia a las habilidades destiladas, lo que sugiere que los procedimientos de abstracción actuales descartan señales contextuales y procedimentales que siguen siendo útiles para tareas futuras. Los análisis de capacidad y costo muestran además que escribir más habilidades o bibliotecas de recursos de Nivel 3 más grandes no es suficiente: las actualizaciones adicionales pueden mejorar la cobertura pero introducen deriva específica de episodio y desorden procedimental. Estos hallazgos posicionan a SkillEvolBench como un banco de pruebas para medir cuándo la experiencia única se convierte en conocimiento procedimental duradero en lugar de memoria local de la tarea.

English

Large language model (LLM) agents accumulate rich episodic trajectories while solving real-world tasks, but it remains unclear whether such experience can be distilled into reusable procedural skills. We introduce SkillEvolBench, a diagnostic benchmark for evaluating this step from experience reuse to skill formation. It contains 180 tasks across six real-world agent environments, organized into role-conditioned task families with shared latent procedures. Agents learn from acquisition tasks, update an external skill library using compacted trajectories and verifier feedback, and then face frozen deployment tasks testing context shift, adversarial shortcuts, and composition. By comparing self-generated and curated-start skill evolution against no-skill and raw-trajectory controls, SkillEvolBench separates procedural abstraction from base capability, curated prior knowledge, and direct reuse of episodic traces. Across ten model configurations and three agent harnesses, we find that current agents often adapt locally but rarely form robust reusable skills. Skill-based conditions can improve acquisition or replay, and individual models sometimes gain on specific deployment axes, but these gains are unstable under frozen deployment. Raw-trajectory reuse frequently outperforms distilled skills, suggesting that current abstraction procedures discard contextual and procedural cues that remain useful for future tasks. Capacity and cost analyses further show that writing more skills or larger Tier-3 resource libraries is not sufficient: additional updates can improve coverage while introducing episode-specific drift and procedural clutter. These findings position SkillEvolBench as a testbed for measuring when one-off experience becomes durable procedural knowledge rather than task-local memory.