Trace2Skill: Destilar Lecciones Locales de Trayectorias en Habilidades Transferibles de Agentes
Trace2Skill: Distill Trajectory-Local Lessons into Transferable Agent Skills
March 26, 2026
Autores: Jingwei Ni, Yihao Liu, Xinpeng Liu, Yutao Sun, Mengyu Zhou, Pengyu Cheng, Dexin Wang, Xiaoxi Jiang, Guanjun Jiang
cs.AI
Resumen
Dotar a los agentes de modelos de lenguaje grande (LLM) con habilidades específicas de dominio es crucial para abordar tareas complejas. Sin embargo, la creación manual genera un cuello de botella severo de escalabilidad. Por el contrario, la generación automática de habilidades a menudo produce resultados frágiles o fragmentados, ya que depende de conocimiento paramétrico superficial o se sobreajusta secuencialmente a lecciones locales de trayectoria no generalizables. Para superar esto, presentamos Trace2Skill, un marco que imita cómo los expertos humanos crean habilidades: analizando holísticamente una amplia experiencia de ejecución antes de destilarla en una guía única e integral. En lugar de reaccionar secuencialmente a trayectorias individuales, Trace2Skill despliega una flota paralela de subagentes para analizar un conjunto diverso de ejecuciones. Extrae lecciones específicas de cada trayectoria y las consolida jerárquicamente en un directorio de habilidades unificado y libre de conflictos mediante razonamiento inductivo. Trace2Skill permite tanto profundizar habilidades existentes escritas por humanos como crear nuevas desde cero. Experimentos en dominios desafiantes, como hojas de cálculo, VisionQA y razonamiento matemático, muestran que Trace2Skill mejora significativamente a fuertes líneas de base, incluidas las habilidades oficiales xlsx de Anthropic. Crucialmente, esta evolución basada en trayectorias no se limita a memorizar instancias de tareas o peculiaridades específicas del modelo: las habilidades evolucionadas se transfieren a través de escalas de LLM y generalizan a entornos fuera de distribución (OOD). Por ejemplo, habilidades evolucionadas por Qwen3.5-35B en sus propias trayectorias mejoraron un agente Qwen3.5-122B hasta en 57.65 puntos porcentuales absolutos en WikiTableQuestions. En última instancia, nuestros resultados demuestran que la experiencia compleja de los agentes puede empaquetarse en habilidades declarativas altamente transferibles, que no requieren actualizaciones de parámetros, ni módulos externos de recuperación, y utilizan modelos de código abierto tan pequeños como 35 mil millones de parámetros.
English
Equipping Large Language Model (LLM) agents with domain-specific skills is critical for tackling complex tasks. Yet, manual authoring creates a severe scalability bottleneck. Conversely, automated skill generation often yields fragile or fragmented results because it either relies on shallow parametric knowledge or sequentially overfits to non-generalizable trajectory-local lessons. To overcome this, we introduce Trace2Skill, a framework that mirrors how human experts author skills: by holistically analyzing broad execution experience before distilling it into a single, comprehensive guide. Instead of reacting sequentially to individual trajectories, Trace2Skill dispatches a parallel fleet of sub-agents to analyze a diverse pool of executions. It extracts trajectory-specific lessons and hierarchically consolidates them into a unified, conflict-free skill directory via inductive reasoning. Trace2Skill supports both deepening existing human-written skills and creating new ones from scratch. Experiments in challenging domains, such as spreadsheet, VisionQA and math reasoning, show that Trace2Skill significantly improves upon strong baselines, including Anthropic's official xlsx skills. Crucially, this trajectory-grounded evolution does not merely memorize task instances or model-specific quirks: evolved skills transfer across LLM scales and generalize to OOD settings. For example, skills evolved by Qwen3.5-35B on its own trajectories improved a Qwen3.5-122B agent by up to 57.65 absolute percentage points on WikiTableQuestions. Ultimately, our results demonstrate that complex agent experience can be packaged into highly transferable, declarative skills -- requiring no parameter updates, no external retrieval modules, and utilizing open-source models as small as 35B parameters.