Squeez: Potatura Condizionata dal Compito dell'Output degli Strumenti per Agenti di Programmazione

Abstract

Gli agenti di codifica consumano ripetutamente osservazioni lunghe degli strumenti, anche se solo una piccola frazione di ciascuna osservazione è rilevante per il passo successivo. Studiamo la potatura condizionata al task degli output degli strumenti: dato un query focalizzato e un output di uno strumento, restituire il più piccolo blocco di evidenza testuale che l'agente dovrebbe ispezionare successivamente. Introduciamo un benchmark di 11.477 esempi costruito da interazioni del repository SWE-bench e output sintetici di strumenti multi-ecosistema, con un set di test di 618 esempi curato manualmente. Addestriamo Qwen 3.5 2B con LoRA e lo confrontiamo con modelli zero-shot più grandi e baseline euristiche di potatura. Il nostro modello raggiunge 0.86 di recall e 0.80 di F1 rimuovendo il 92% dei token di input, superando Qwen 3.5 35B A3B zero-shot di 11 punti di recall e tutte le baseline euristiche di un ampio margine.

English

Coding agents repeatedly consume long tool observations even though only a small fraction of each observation matters for the next step. We study task-conditioned tool-output pruning: given a focused query and one tool output, return the smallest verbatim evidence block the agent should inspect next. We introduce a benchmark of 11,477 examples built from SWE-bench repository interactions and synthetic multi-ecosystem tool outputs, with a manually curated 618-example test set. We fine-tune Qwen 3.5 2B with LoRA and compare it against larger zero-shot models and heuristic pruning baselines. Our model reaches 0.86 recall and 0.80 F1 while removing 92% of input tokens, outperforming zero-shot Qwen 3.5 35B A3B by 11 recall points and all heuristic baselines by a wide margin.

Squeez: Potatura Condizionata dal Compito dell'Output degli Strumenti per Agenti di Programmazione

Squeez: Task-Conditioned Tool-Output Pruning for Coding Agents

Abstract

Support