FastContext : Entraînement d'un Explorateur de Dépôts Efficace pour Agents de Codage

Résumé

Les agents de codage basés sur les grands modèles de langage (LLM) ont obtenu de bons résultats sur des tâches de génie logiciel, mais l’exploration des dépôts reste un goulot d’étranglement majeur : localiser le code pertinent consomme un budget important de jetons et pollue le contexte de l’agent avec des extraits non pertinents. Dans la plupart des agents, le même modèle explore le dépôt et résout la tâche, ce qui laisse les lectures et les recherches exploratoires dans l’historique du solveur. Nous présentons FastContext, un sous-agent d’exploration dédié qui sépare l’exploration du dépôt de la résolution. Invoqué à la demande, FastContext émet des appels d’outils parallèles et renvoie des chemins de fichiers et des plages de lignes concis en tant que contexte ciblé. FastContext est alimenté par des modèles d’exploration spécialisés allant de 4 à 30 milliards de paramètres. Nous les amorçons à partir de trajectoires de modèles de référence solides et les affinons avec des récompenses ancrées dans la tâche pour une recherche large dès le premier tour, une collecte de preuves multi-tours et une génération précise de citations. Sur SWE-bench Multilingual, SWE-bench Pro et SWE-QA, l'intégration de FastContext dans Mini-SWE-Agent améliore les taux de résolution de bout en bout jusqu'à 5,5 % tout en réduisant la consommation de jetons de l'agent de codage jusqu'à 60 %, avec un surcoût marginal. Ces résultats montrent que l'exploration des dépôts peut être séparée de la résolution et traitée efficacement par des modèles spécialisés. Code et données : https://github.com/microsoft/fastcontext

English

Large Language Model (LLM) coding agents have achieved strong results on software engineering tasks, yet repository exploration remains a major bottleneck: locating relevant code consumes substantial token budget and pollutes the agent's context with irrelevant snippets. In most agents, the same model explores the repository and solves the task, leaving exploratory reads and searches in the solver's history. We present FastContext, a dedicated exploration subagent that separates repository exploration from solving. Invoked on demand, FastContext issues parallel tool calls and returns concise file paths and line ranges as focused context. FastContext is powered by specialized exploration models spanning 4B--30B parameters. We bootstrap them from strong reference-model trajectories and refine them with task-grounded rewards for broad first-turn search, multi-turn evidence gathering, and precise citation generation. Across SWE-bench Multilingual, SWE-bench Pro, and SWE-QA, integrating FastContext into Mini-SWE-Agent improves end-to-end resolution rates up to 5.5\% while reducing coding-agent token consumption up to 60\%, with marginal overhead. These results show that repository exploration can be separated from solving and handled effectively by specialized models. Code and data: https://github.com/microsoft/fastcontext