FastContext: Treinamento de um Explorador de Repositório Eficiente para Agentes de Codificação

Resumo

Agentes de codificação baseados em Modelos de Linguagem de Grande Porte (LLM) têm alcançado resultados robustos em tarefas de engenharia de software, mas a exploração de repositórios continua sendo um gargalo significativo: localizar código relevante consome um orçamento substancial de tokens e polui o contexto do agente com trechos irrelevantes. Na maioria dos agentes, o mesmo modelo explora o repositório e resolve a tarefa, deixando leituras e buscas exploratórias no histórico do solucionador. Apresentamos o FastContext, um subagente de exploração dedicado que separa a exploração do repositório da resolução. Invocado sob demanda, o FastContext emite chamadas de ferramentas paralelas e retorna caminhos de arquivos concisos e intervalos de linhas como contexto focado. O FastContext é alimentado por modelos de exploração especializados, abrangendo parâmetros de 4B a 30B. Os inicializamos a partir de trajetórias fortes de modelos de referência e os refinamos com recompensas baseadas na tarefa para busca ampla no primeiro turno, coleta de evidências em vários turnos e geração precisa de citações. Em SWE-bench Multilingual, SWE-bench Pro e SWE-QA, a integração do FastContext ao Mini-SWE-Agent melhora as taxas de resolução de ponta a ponta em até 5,5%, enquanto reduz o consumo de tokens do agente de codificação em até 60%, com sobrecarga marginal. Esses resultados mostram que a exploração do repositório pode ser separada da resolução e tratada de forma eficaz por modelos especializados. Código e dados: https://github.com/microsoft/fastcontext

English

Large Language Model (LLM) coding agents have achieved strong results on software engineering tasks, yet repository exploration remains a major bottleneck: locating relevant code consumes substantial token budget and pollutes the agent's context with irrelevant snippets. In most agents, the same model explores the repository and solves the task, leaving exploratory reads and searches in the solver's history. We present FastContext, a dedicated exploration subagent that separates repository exploration from solving. Invoked on demand, FastContext issues parallel tool calls and returns concise file paths and line ranges as focused context. FastContext is powered by specialized exploration models spanning 4B--30B parameters. We bootstrap them from strong reference-model trajectories and refine them with task-grounded rewards for broad first-turn search, multi-turn evidence gathering, and precise citation generation. Across SWE-bench Multilingual, SWE-bench Pro, and SWE-QA, integrating FastContext into Mini-SWE-Agent improves end-to-end resolution rates up to 5.5\% while reducing coding-agent token consumption up to 60\%, with marginal overhead. These results show that repository exploration can be separated from solving and handled effectively by specialized models. Code and data: https://github.com/microsoft/fastcontext