ChatPaper.aiChatPaper

Agentes Spec Kit: Fluxos de Trabalho Agentes Baseados em Contexto

Spec Kit Agents: Context-Grounded Agentic Workflows

April 7, 2026
Autores: Pardis Taghavi, Santosh Bhavani
cs.AI

Resumo

O desenvolvimento orientado por especificações (SDD) com agentes de IA de codificação oferece um fluxo de trabalho estruturado, mas os agentes frequentemente permanecem "cegos ao contexto" em repositórios grandes e em evolução, levando a APIs alucinadas e violações arquiteturais. Apresentamos os *Spec Kit Agents*, um pipeline de SDD multiagente (com funções de Gerente de Projeto e Desenvolvedor) que adiciona *hooks* de ancoragem contextual em nível de fase. *Hooks* de sondagem somente leitura ancoram cada etapa (Especificar, Planejar, Tarefas, Implementar) em evidências do repositório, enquanto *hooks* de validação verificam artefatos intermediários em relação ao ambiente. Avaliamos 128 execuções abrangendo 32 funcionalidades em cinco repositórios. Os *hooks* de ancoragem contextual melhoram a qualidade julgada em +0,15 em um score composto de 1-5 usando LLM como juiz (+3,0 por cento da pontuação total; teste de postos sinalizados de Wilcoxon, p < 0,05), mantendo 99,7-100 por cento de compatibilidade com testes em nível de repositório. Avaliamos ainda a estrutura no SWE-bench Lite, onde os *hooks* de aumento melhoram a linha de base em 1,7 por cento, atingindo 58,2 por cento de Pass@1.
English
Spec-driven development (SDD) with AI coding agents provides a structured workflow, but agents often remain "context blind" in large, evolving repositories, leading to hallucinated APIs and architectural violations. We present Spec Kit Agents, a multi-agent SDD pipeline (with PM and developer roles) that adds phase-level, context-grounding hooks. Read-only probing hooks ground each stage (Specify, Plan, Tasks, Implement) in repository evidence, while validation hooks check intermediate artifacts against the environment. We evaluate 128 runs covering 32 features across five repositories. Context-grounding hooks improve judged quality by +0.15 on a 1-5 composite LLM-as-judge score (+3.0 percent of the full score; Wilcoxon signed-rank, p < 0.05) while maintaining 99.7-100 percent repository-level test compatibility. We further evaluate the framework on SWE-bench Lite, where augmentation hooks improve baseline by 1.7 percent, achieving 58.2 percent Pass@1.
PDF42April 18, 2026