Squeez: Обрезка выходных данных инструментов с учетом задачи для кодирующих агентов

Аннотация

Кодирующие агенты постоянно обрабатывают длинные результаты работы инструментов, хотя для следующего шага важна лишь малая часть каждого наблюдения. Мы исследуем обрезку вывода инструментов с учётом задачи: по заданному целевому запросу и результату работы инструмента возвращается минимальный дословный блок доказательств, который агенту следует изучить далее. Мы представляем benchmark из 11 477 примеров, созданных на основе взаимодействий в репозитории SWE-bench и синтетических выводов инструментов из различных экосистем, с ручной отборной тестовой выборкой из 618 примеров. Мы дообучаем Qwen 3.5 2B с помощью LoRA и сравниваем её с более крупными zero-shot моделями и эвристическими базовыми методами обрезки. Наша модель достигает полноты 0,86 и F1-меры 0,80 при удалении 92% входных токенов, превосходя zero-shot Qwen 3.5 35B A3B на 11 пунктов по полноте и все эвристические базовые методы с значительным отрывом.

English

Coding agents repeatedly consume long tool observations even though only a small fraction of each observation matters for the next step. We study task-conditioned tool-output pruning: given a focused query and one tool output, return the smallest verbatim evidence block the agent should inspect next. We introduce a benchmark of 11,477 examples built from SWE-bench repository interactions and synthetic multi-ecosystem tool outputs, with a manually curated 618-example test set. We fine-tune Qwen 3.5 2B with LoRA and compare it against larger zero-shot models and heuristic pruning baselines. Our model reaches 0.86 recall and 0.80 F1 while removing 92% of input tokens, outperforming zero-shot Qwen 3.5 35B A3B by 11 recall points and all heuristic baselines by a wide margin.

Squeez: Обрезка выходных данных инструментов с учетом задачи для кодирующих агентов

Squeez: Task-Conditioned Tool-Output Pruning for Coding Agents

Аннотация

Support