SWE-Pruner: Самоадаптивное контекстное прореживание для кодирующих агентов
SWE-Pruner: Self-Adaptive Context Pruning for Coding Agents
January 23, 2026
Авторы: Yuhang Wang, Yuling Shi, Mo Yang, Rongrui Zhang, Shilin He, Heng Lian, Yuting Chen, Siyu Ye, Kai Cai, Xiaodong Gu
cs.AI
Аннотация
Модели-агенты LLM продемонстрировали впечатляющие возможности в разработке программного обеспечения, однако их производительность ограничивается длинными контекстами взаимодействия, которые влекут высокие затраты на API и задержки. Хотя для решения этой проблемы появились различные подходы к сжатию контекста, такие как LongLLMLingua, они обычно опираются на фиксированные метрики вроде PPL, игнорируя специфическую для задачи природу понимания кода. В результате они часто нарушают синтаксическую и логическую структуру и не сохраняют критически важные детали реализации. В данной статье мы предлагаем SWE-Pruner — самоадаптирующуюся систему сжатия контекста, разработанную специально для кодирующих агентов. Вдохновляясь тем, как программисты «выборочно просматривают» исходный код во время разработки и отладки, SWE-Pruner выполняет адаптивное сжатие длинных контекстов с учётом задачи. Получив текущее задание, агент формулирует явную цель (например, «сосредоточиться на обработке ошибок») в качестве подсказки для определения целей сжатия. Обученный лёгкий нейросетевой «сканер» (0,6 млрд параметров) динамически выбирает релевантные строки из окружающего контекста с учётом поставленной цели. Оценки на четырёх тестовых наборах и нескольких моделях подтверждают эффективность SWE-Pruner в различных сценариях: достигнуто сокращение токенов на 23–54% в задачах агентов, таких как SWE-Bench Verified, и до 14,84-кратного сжатия в однократных задачах, подобных LongCodeQA, при минимальном влиянии на производительность.
English
LLM agents have demonstrated remarkable capabilities in software development, but their performance is hampered by long interaction contexts, which incur high API costs and latency. While various context compression approaches such as LongLLMLingua have emerged to tackle this challenge, they typically rely on fixed metrics such as PPL, ignoring the task-specific nature of code understanding. As a result, they frequently disrupt syntactic and logical structure and fail to retain critical implementation details. In this paper, we propose SWE-Pruner, a self-adaptive context pruning framework tailored for coding agents. Drawing inspiration from how human programmers "selectively skim" source code during development and debugging, SWE-Pruner performs task-aware adaptive pruning for long contexts. Given the current task, the agent formulates an explicit goal (e.g., "focus on error handling") as a hint to guide the pruning targets. A lightweight neural skimmer (0.6B parameters) is trained to dynamically select relevant lines from the surrounding context given the goal. Evaluations across four benchmarks and multiple models validate SWE-Pruner's effectiveness in various scenarios, achieving 23-54% token reduction on agent tasks like SWE-Bench Verified and up to 14.84x compression on single-turn tasks like LongCodeQA with minimal performance impact.