Squeez: Taakgeconditioneerd Bijsnijden van Gereedschapsoutput voor Codeeragents

Samenvatting

Coderende agenten verbruiken herhaaldelijk lange toolobservaties, ookal slechts een klein deel van elke observatie relevant is voor de volgende stap. Wij bestuderen taakgeconditioneerde tooloutput-pruning: gegeven een gefocuste query en één tooloutput, retourneer het kleinste letterlijke bewijsblok dat de agent vervolgens zou moeten inspecteren. Wij introduceren een benchmark van 11.477 voorbeelden, opgebouwd uit SWE-bench repository-interacties en synthetische multi-ecosysteem tooloutputs, met een handmatig samengestelde testset van 618 voorbeelden. Wij fine-tunen Qwen 3.5 2B met LoRA en vergelijken het met grotere zero-shot modellen en heuristische pruning-baselines. Ons model bereikt een recall van 0.86 en een F1-score van 0.80 terwijl het 92% van de invoertokens verwijdert, en presteert daarmee 11 recall-punten beter dan zero-shot Qwen 3.5 35B A3B en aanzienlijk beter dan alle heuristische baselines.

English

Coding agents repeatedly consume long tool observations even though only a small fraction of each observation matters for the next step. We study task-conditioned tool-output pruning: given a focused query and one tool output, return the smallest verbatim evidence block the agent should inspect next. We introduce a benchmark of 11,477 examples built from SWE-bench repository interactions and synthetic multi-ecosystem tool outputs, with a manually curated 618-example test set. We fine-tune Qwen 3.5 2B with LoRA and compare it against larger zero-shot models and heuristic pruning baselines. Our model reaches 0.86 recall and 0.80 F1 while removing 92% of input tokens, outperforming zero-shot Qwen 3.5 35B A3B by 11 recall points and all heuristic baselines by a wide margin.

Squeez: Taakgeconditioneerd Bijsnijden van Gereedschapsoutput voor Codeeragents

Squeez: Task-Conditioned Tool-Output Pruning for Coding Agents

Samenvatting

Support