Quão Bem as Habilidades de Agência Funcionam em Ambientes Reais: Avaliando o Uso de Habilidades de LLM em Configurações Realistas
How Well Do Agentic Skills Work in the Wild: Benchmarking LLM Skill Usage in Realistic Settings
April 6, 2026
Autores: Yujian Liu, Jiabao Ji, Li An, Tommi Jaakkola, Yang Zhang, Shiyu Chang
cs.AI
Resumo
As competências de agentes, que são artefactos de conhecimento reutilizáveis e específicos de domínio, tornaram-se um mecanismo popular para estender agentes baseados em LLM (Modelos de Linguagem Grande), no entanto, a avaliação formal do desempenho do uso de competências permanece escassa. Os esforços existentes de avaliação de competências concentram-se em condições excessivamente idealizadas, onde os LLMs recebem diretamente competências específicas para cada tarefa, elaboradas manualmente e de forma muito restrita, enquanto em muitos cenários realistas, o agente LLM pode ter de pesquisar e selecionar competências relevantes por si próprio, e mesmo as competências mais próximas podem não estar bem adaptadas à tarefa. Neste artigo, realizamos o primeiro estudo abrangente sobre a utilidade das competências em cenários realistas progressivamente mais desafiadores, onde os agentes devem recuperar competências de uma grande coleção de 34 mil competências do mundo real e podem não ter acesso a quaisquer competências curadas manualmente. As nossas descobertas revelam que os benefícios das competências são frágeis: os ganhos de desempenho degradam-se consistentemente à medida que os cenários se tornam mais realistas, com taxas de sucesso a aproximarem-se das linhas de base sem competências nos cenários mais desafiadores. Para reduzir esta lacuna, estudamos estratégias de refinamento de competências, incluindo abordagens específicas por consulta e agnósticas à consulta, e mostramos que o refinamento específico por consulta recupera substancialmente o desempenho perdido quando as competências iniciais têm relevância e qualidade razoáveis. Demonstramos ainda a generalidade da recuperação e do refinamento no Terminal-Bench 2.0, onde estes melhoram a taxa de sucesso do Claude Opus 4.6 de 57,7% para 65,5%. Os nossos resultados, consistentes em vários modelos, destacam tanto a promessa como as atuais limitações das competências para agentes baseados em LLM. O nosso código está disponível em https://github.com/UCSB-NLP-Chang/Skill-Usage.
English
Agent skills, which are reusable, domain-specific knowledge artifacts, have become a popular mechanism for extending LLM-based agents, yet formally benchmarking skill usage performance remains scarce. Existing skill benchmarking efforts focus on overly idealized conditions, where LLMs are directly provided with hand-crafted, narrowly-tailored task-specific skills for each task, whereas in many realistic settings, the LLM agent may have to search for and select relevant skills on its own, and even the closest matching skills may not be well-tailored for the task. In this paper, we conduct the first comprehensive study of skill utility under progressively challenging realistic settings, where agents must retrieve skills from a large collection of 34k real-world skills and may not have access to any hand-curated skills. Our findings reveal that the benefits of skills are fragile: performance gains degrade consistently as settings become more realistic, with pass rates approaching no-skill baselines in the most challenging scenarios. To narrow this gap, we study skill refinement strategies, including query-specific and query-agnostic approaches, and we show that query-specific refinement substantially recovers lost performance when the initial skills are of reasonable relevance and quality. We further demonstrate the generality of retrieval and refinement on Terminal-Bench 2.0, where they improve the pass rate of Claude Opus 4.6 from 57.7% to 65.5%. Our results, consistent across multiple models, highlight both the promise and the current limitations of skills for LLM-based agents. Our code is available at https://github.com/UCSB-NLP-Chang/Skill-Usage.