Squeez: Poda Condicionada por Tarefa de Saídas de Ferramentas para Agentes de Programação

Resumo

Agentes de codificação consomem repetidamente observações longas de ferramentas, embora apenas uma pequena fração de cada observação seja relevante para a próxima etapa. Estudamos a poda condicionada por tarefa de saídas de ferramentas: dada uma consulta focada e uma saída de ferramenta, retornar o menor bloco de evidência textual que o agente deve inspecionar a seguir. Introduzimos um benchmark de 11.477 exemplos construídos a partir de interações do repositório SWE-bench e saídas sintéticas de ferramentas de múltiplos ecossistemas, com um conjunto de teste de 618 exemplos curado manualmente. Ajustamos finamente o Qwen 3.5 2B com LoRA e comparamos com modelos maiores de zero-shot e baselines heurísticas de poda. Nosso modelo atinge 0.86 de revocação e 0.80 de F1 enquanto remove 92% dos tokens de entrada, superando o Qwen 3.5 35B A3B de zero-shot por 11 pontos de revocação e todas as baselines heurísticas por uma ampla margem.

English

Coding agents repeatedly consume long tool observations even though only a small fraction of each observation matters for the next step. We study task-conditioned tool-output pruning: given a focused query and one tool output, return the smallest verbatim evidence block the agent should inspect next. We introduce a benchmark of 11,477 examples built from SWE-bench repository interactions and synthetic multi-ecosystem tool outputs, with a manually curated 618-example test set. We fine-tune Qwen 3.5 2B with LoRA and compare it against larger zero-shot models and heuristic pruning baselines. Our model reaches 0.86 recall and 0.80 F1 while removing 92% of input tokens, outperforming zero-shot Qwen 3.5 35B A3B by 11 recall points and all heuristic baselines by a wide margin.

Squeez: Poda Condicionada por Tarefa de Saídas de Ferramentas para Agentes de Programação

Squeez: Task-Conditioned Tool-Output Pruning for Coding Agents

Resumo

Support