Squeez: Potatura Condizionata dal Compito dell'Output degli Strumenti per Agenti di Programmazione
Squeez: Task-Conditioned Tool-Output Pruning for Coding Agents
April 4, 2026
Autori: Ádám Kovács
cs.AI
Abstract
Gli agenti di codifica consumano ripetutamente osservazioni lunghe degli strumenti, anche se solo una piccola frazione di ciascuna osservazione è rilevante per il passo successivo. Studiamo la potatura condizionata al task degli output degli strumenti: dato un query focalizzato e un output di uno strumento, restituire il più piccolo blocco di evidenza testuale che l'agente dovrebbe ispezionare successivamente. Introduciamo un benchmark di 11.477 esempi costruito da interazioni del repository SWE-bench e output sintetici di strumenti multi-ecosistema, con un set di test di 618 esempi curato manualmente. Addestriamo Qwen 3.5 2B con LoRA e lo confrontiamo con modelli zero-shot più grandi e baseline euristiche di potatura. Il nostro modello raggiunge 0.86 di recall e 0.80 di F1 rimuovendo il 92% dei token di input, superando Qwen 3.5 35B A3B zero-shot di 11 punti di recall e tutte le baseline euristiche di un ampio margine.
English
Coding agents repeatedly consume long tool observations even though only a small fraction of each observation matters for the next step. We study task-conditioned tool-output pruning: given a focused query and one tool output, return the smallest verbatim evidence block the agent should inspect next. We introduce a benchmark of 11,477 examples built from SWE-bench repository interactions and synthetic multi-ecosystem tool outputs, with a manually curated 618-example test set. We fine-tune Qwen 3.5 2B with LoRA and compare it against larger zero-shot models and heuristic pruning baselines. Our model reaches 0.86 recall and 0.80 F1 while removing 92% of input tokens, outperforming zero-shot Qwen 3.5 35B A3B by 11 recall points and all heuristic baselines by a wide margin.