¿Qué Tan Bien Funcionan las Habilidades Agénticas en Entornos Reales: Evaluación Comparativa del Uso de Habilidades de los LLM en Escenarios Realistas

Resumen

Las habilidades de agente, que son artefactos de conocimiento reutilizables y específicos de un dominio, se han convertido en un mecanismo popular para extender los agentes basados en LLM, sin embargo, la evaluación comparativa formal del rendimiento en el uso de habilidades sigue siendo escasa. Los esfuerzos existentes de evaluación de habilidades se centran en condiciones excesivamente idealizadas, donde a los LLM se les proporcionan directamente habilidades específicas para cada tarea, elaboradas manualmente y muy especializadas, mientras que en muchos entornos realistas, el agente LLM puede tener que buscar y seleccionar habilidades relevantes por sí mismo, e incluso las habilidades más similares pueden no estar bien adaptadas a la tarea. En este artículo, realizamos el primer estudio exhaustivo de la utilidad de las habilidades en entornos realistas progresivamente más desafiantes, donde los agentes deben recuperar habilidades de una gran colección de 34k habilidades del mundo real y pueden no tener acceso a ninguna habilidad seleccionada manualmente. Nuestros hallazgos revelan que los beneficios de las habilidades son frágiles: las ganancias de rendimiento se degradan consistentemente a medida que los entornos se vuelven más realistas, con tasas de éxito aproximándose a los valores de referencia sin habilidades en los escenarios más desafiantes. Para reducir esta brecha, estudiamos estrategias de refinamiento de habilidades, incluyendo enfoques específicos por consulta y agnósticos a la consulta, y mostramos que el refinamiento específico por consulta recupera sustancialmente el rendimiento perdido cuando las habilidades iniciales tienen una relevancia y calidad razonables. Además, demostramos la generalidad de la recuperación y el refinamiento en Terminal-Bench 2.0, donde mejoran la tasa de éxito de Claude Opus 4.6 del 57.7% al 65.5%. Nuestros resultados, consistentes en múltiples modelos, destacan tanto la promesa como las limitaciones actuales de las habilidades para los agentes basados en LLM. Nuestro código está disponible en https://github.com/UCSB-NLP-Chang/Skill-Usage.

English

Agent skills, which are reusable, domain-specific knowledge artifacts, have become a popular mechanism for extending LLM-based agents, yet formally benchmarking skill usage performance remains scarce. Existing skill benchmarking efforts focus on overly idealized conditions, where LLMs are directly provided with hand-crafted, narrowly-tailored task-specific skills for each task, whereas in many realistic settings, the LLM agent may have to search for and select relevant skills on its own, and even the closest matching skills may not be well-tailored for the task. In this paper, we conduct the first comprehensive study of skill utility under progressively challenging realistic settings, where agents must retrieve skills from a large collection of 34k real-world skills and may not have access to any hand-curated skills. Our findings reveal that the benefits of skills are fragile: performance gains degrade consistently as settings become more realistic, with pass rates approaching no-skill baselines in the most challenging scenarios. To narrow this gap, we study skill refinement strategies, including query-specific and query-agnostic approaches, and we show that query-specific refinement substantially recovers lost performance when the initial skills are of reasonable relevance and quality. We further demonstrate the generality of retrieval and refinement on Terminal-Bench 2.0, where they improve the pass rate of Claude Opus 4.6 from 57.7% to 65.5%. Our results, consistent across multiple models, highlight both the promise and the current limitations of skills for LLM-based agents. Our code is available at https://github.com/UCSB-NLP-Chang/Skill-Usage.

¿Qué Tan Bien Funcionan las Habilidades Agénticas en Entornos Reales: Evaluación Comparativa del Uso de Habilidades de los LLM en Escenarios Realistas

How Well Do Agentic Skills Work in the Wild: Benchmarking LLM Skill Usage in Realistic Settings

Resumen

Support