Squeez : Élagage conditionné par la tâche des sorties d'outils pour les agents de codage

Résumé

Les agents de codage consomment de manière répétée de longues observations d'outils, bien qu'une petite fraction seulement de chaque observation soit pertinente pour l'étape suivante. Nous étudions l'élagage conditionné par la tâche des sorties d'outils : étant donné une requête ciblée et une sortie d'outil, retourner le plus petit bloc de preuve textuel que l'agent devrait examiner ensuite. Nous présentons un benchmark de 11 477 exemples construits à partir d'interactions du référentiel SWE-bench et de sorties d'outils synthétiques multi-écosystèmes, avec un ensemble de test de 618 exemples curaté manuellement. Nous affinons Qwen 3.5 2B avec LoRA et le comparons à des modèles zero-shot plus grands et à des bases d'élagage heuristiques. Notre modèle atteint un rappel de 0,86 et un F1 de 0,80 tout en supprimant 92 % des jetons d'entrée, surpassant Qwen 3.5 35B A3B zero-shot de 11 points de rappel et toutes les bases heuristiques par une large marge.

English

Coding agents repeatedly consume long tool observations even though only a small fraction of each observation matters for the next step. We study task-conditioned tool-output pruning: given a focused query and one tool output, return the smallest verbatim evidence block the agent should inspect next. We introduce a benchmark of 11,477 examples built from SWE-bench repository interactions and synthetic multi-ecosystem tool outputs, with a manually curated 618-example test set. We fine-tune Qwen 3.5 2B with LoRA and compare it against larger zero-shot models and heuristic pruning baselines. Our model reaches 0.86 recall and 0.80 F1 while removing 92% of input tokens, outperforming zero-shot Qwen 3.5 35B A3B by 11 recall points and all heuristic baselines by a wide margin.

Squeez : Élagage conditionné par la tâche des sorties d'outils pour les agents de codage

Squeez: Task-Conditioned Tool-Output Pruning for Coding Agents

Résumé

Support