Squeez: Aufgabenbedingte Ausgabereduzierung von Werkzeugen für Code-Agenten

Zusammenfassung

Programmieragenten konsumieren wiederholt lange Werkzeugbeobachtungen, obwohl nur ein kleiner Teil jeder Beobachtung für den nächsten Schritt relevant ist. Wir untersuchen aufgabenbedingtes Beschneiden von Werkzeugausgaben: Gegeben eine fokussierte Abfrage und eine Werkzeugausgabe, wird der kleinste wörtliche Beweisblock zurückgegeben, den der Agent als nächstes prüfen sollte. Wir stellen einen Benchmark mit 11.477 Beispielen vor, der auf SWE-bench-Repository-Interaktionen und synthetischen Multi-Ecosystem-Werkzeugausgaben basiert, mit einem manuell kuratierten Testset von 618 Beispielen. Wir feintunen Qwen 3.5 2B mit LoRA und vergleichen es mit größeren Zero-Shot-Modellen und heuristischen Beschneidungs-Baselines. Unser Modell erreicht 0,86 Recall und 0,80 F1 bei gleichzeitiger Entfernung von 92 % der Eingabe-Tokens und übertrifft damit Zero-Shot Qwen 3.5 35B A3B um 11 Recall-Punkte sowie alle heuristischen Baselines mit deutlichem Abstand.

English

Coding agents repeatedly consume long tool observations even though only a small fraction of each observation matters for the next step. We study task-conditioned tool-output pruning: given a focused query and one tool output, return the smallest verbatim evidence block the agent should inspect next. We introduce a benchmark of 11,477 examples built from SWE-bench repository interactions and synthetic multi-ecosystem tool outputs, with a manually curated 618-example test set. We fine-tune Qwen 3.5 2B with LoRA and compare it against larger zero-shot models and heuristic pruning baselines. Our model reaches 0.86 recall and 0.80 F1 while removing 92% of input tokens, outperforming zero-shot Qwen 3.5 35B A3B by 11 recall points and all heuristic baselines by a wide margin.

Squeez: Aufgabenbedingte Ausgabereduzierung von Werkzeugen für Code-Agenten

Squeez: Task-Conditioned Tool-Output Pruning for Coding Agents

Zusammenfassung

Support