Squeez: Poda Condicionada por Tarea de la Salida de Herramientas para Agentes de Programación

Resumen

Los agentes de programación consumen repetidamente observaciones extensas de herramientas aunque solo una pequeña fracción de cada observación es relevante para el siguiente paso. Estudiamos la poda condicionada por tareas de salidas de herramientas: dada una consulta específica y una salida de herramienta, devolver el bloque de evidencia textual más pequeño que el agente debería inspeccionar a continuación. Introducimos un benchmark de 11.477 ejemplos construido a partir de interacciones del repositorio SWE-bench y salidas de herramientas sintéticas multi-ecosistema, con un conjunto de prueba de 618 ejemplos curado manualmente. Ajustamos Qwen 3.5 2B con LoRA y lo comparamos con modelos de cero-shot más grandes y líneas base de poda heurística. Nuestro modelo alcanza 0.86 de exhaustividad y 0.80 de F1 mientras elimina el 92% de los tokens de entrada, superando a Qwen 3.5 35B A3B de cero-shot por 11 puntos de exhaustividad y a todas las líneas base heurísticas por un amplio margen.

English

Coding agents repeatedly consume long tool observations even though only a small fraction of each observation matters for the next step. We study task-conditioned tool-output pruning: given a focused query and one tool output, return the smallest verbatim evidence block the agent should inspect next. We introduce a benchmark of 11,477 examples built from SWE-bench repository interactions and synthetic multi-ecosystem tool outputs, with a manually curated 618-example test set. We fine-tune Qwen 3.5 2B with LoRA and compare it against larger zero-shot models and heuristic pruning baselines. Our model reaches 0.86 recall and 0.80 F1 while removing 92% of input tokens, outperforming zero-shot Qwen 3.5 35B A3B by 11 recall points and all heuristic baselines by a wide margin.

Squeez: Poda Condicionada por Tarea de la Salida de Herramientas para Agentes de Programación

Squeez: Task-Conditioned Tool-Output Pruning for Coding Agents

Resumen

Support