FastContext: Het trainen van een efficiënte repository-verkenner voor codeeragenten

Samenvatting

Large Language Model (LLM) codeeragenten hebben sterke resultaten behaald bij software-engineeringtaken, maar het verkennen van repositories blijft een grote bottleneck: het lokaliseren van relevante code verbruikt aanzienlijke tokenbudgetten en vervuilt de context van de agent met irrelevante fragmenten. In de meeste agenten verkent hetzelfde model de repository en lost het de taak op, waardoor verkennende reads en searches in de geschiedenis van de oplosser achterblijven. Wij presenteren FastContext, een toegewijd verkenningssubagent dat repository-verkenning scheidt van het oplossen van taken. Op verzoek aangeroepen, voert FastContext parallelle toolaanroepen uit en retourneert het beknopte bestandspaden en lijnbereiken als gefocuste context. FastContext wordt aangedreven door gespecialiseerde verkenningsmodellen met een omvang van 4B tot 30B parameters. We bootstrappen deze vanuit sterke referentiemodeltrajecten en verfijnen ze met taakgebonden beloningen voor brede eerste-zoekactie, meerstappen-bewijsverzameling en precieze citatiegeneratie. Over SWE-bench Multilingual, SWE-bench Pro en SWE-QA verbetert integratie van FastContext in Mini-SWE-Agent de end-to-end oplossingspercentages met tot 5,5%, terwijl het tokenverbruik van de codeeragent tot 60% daalt, met marginale overhead. Deze resultaten tonen aan dat repository-verkenning gescheiden kan worden van het oplossen en effectief kan worden afgehandeld door gespecialiseerde modellen. Code en data: https://github.com/microsoft/fastcontext

English

Large Language Model (LLM) coding agents have achieved strong results on software engineering tasks, yet repository exploration remains a major bottleneck: locating relevant code consumes substantial token budget and pollutes the agent's context with irrelevant snippets. In most agents, the same model explores the repository and solves the task, leaving exploratory reads and searches in the solver's history. We present FastContext, a dedicated exploration subagent that separates repository exploration from solving. Invoked on demand, FastContext issues parallel tool calls and returns concise file paths and line ranges as focused context. FastContext is powered by specialized exploration models spanning 4B--30B parameters. We bootstrap them from strong reference-model trajectories and refine them with task-grounded rewards for broad first-turn search, multi-turn evidence gathering, and precise citation generation. Across SWE-bench Multilingual, SWE-bench Pro, and SWE-QA, integrating FastContext into Mini-SWE-Agent improves end-to-end resolution rates up to 5.5\% while reducing coding-agent token consumption up to 60\%, with marginal overhead. These results show that repository exploration can be separated from solving and handled effectively by specialized models. Code and data: https://github.com/microsoft/fastcontext

FastContext: Het trainen van een efficiënte repository-verkenner voor codeeragenten

FastContext: Training Efficient Repository Explorer for Coding Agents

Samenvatting

Support