Squeez: Taakgeconditioneerd Bijsnijden van Gereedschapsoutput voor Codeeragents
Squeez: Task-Conditioned Tool-Output Pruning for Coding Agents
April 4, 2026
Auteurs: Ádám Kovács
cs.AI
Samenvatting
Coderende agenten verbruiken herhaaldelijk lange toolobservaties, ookal slechts een klein deel van elke observatie relevant is voor de volgende stap. Wij bestuderen taakgeconditioneerde tooloutput-pruning: gegeven een gefocuste query en één tooloutput, retourneer het kleinste letterlijke bewijsblok dat de agent vervolgens zou moeten inspecteren. Wij introduceren een benchmark van 11.477 voorbeelden, opgebouwd uit SWE-bench repository-interacties en synthetische multi-ecosysteem tooloutputs, met een handmatig samengestelde testset van 618 voorbeelden. Wij fine-tunen Qwen 3.5 2B met LoRA en vergelijken het met grotere zero-shot modellen en heuristische pruning-baselines. Ons model bereikt een recall van 0.86 en een F1-score van 0.80 terwijl het 92% van de invoertokens verwijdert, en presteert daarmee 11 recall-punten beter dan zero-shot Qwen 3.5 35B A3B en aanzienlijk beter dan alle heuristische baselines.
English
Coding agents repeatedly consume long tool observations even though only a small fraction of each observation matters for the next step. We study task-conditioned tool-output pruning: given a focused query and one tool output, return the smallest verbatim evidence block the agent should inspect next. We introduce a benchmark of 11,477 examples built from SWE-bench repository interactions and synthetic multi-ecosystem tool outputs, with a manually curated 618-example test set. We fine-tune Qwen 3.5 2B with LoRA and compare it against larger zero-shot models and heuristic pruning baselines. Our model reaches 0.86 recall and 0.80 F1 while removing 92% of input tokens, outperforming zero-shot Qwen 3.5 35B A3B by 11 recall points and all heuristic baselines by a wide margin.