SWE-Pruner: Poda de Contexto Auto-Adaptativa para Agentes de Programação

Resumo

Os agentes de LLM demonstraram capacidades notáveis no desenvolvimento de software, mas o seu desempenho é prejudicado por contextos de interação longos, que acarretam altos custos de API e latência. Embora tenham surgido várias abordagens de compressão de contexto, como o LongLLMLingua, para enfrentar este desafio, elas geralmente dependem de métricas fixas, como PPL, ignorando a natureza específica da tarefa na compreensão de código. Consequentemente, frequentemente perturbam a estrutura sintática e lógica e falham em reter detalhes de implementação críticos. Neste artigo, propomos o SWE-Pruner, uma estrutura de poda de contexto auto-adaptativa concebida para agentes de programação. Inspirando-nos na forma como os programadores humanos "folheiam seletivamente" o código-fonte durante o desenvolvimento e depuração, o SWE-Pruner realiza uma poda adaptativa consciente da tarefa para contextos longos. Dada a tarefa atual, o agente formula um objetivo explícito (por exemplo, "concentrar-se no tratamento de erros") como uma pista para orientar os alvos da poda. Um "skimmer" neural leve (0,6 mil milhões de parâmetros) é treinado para selecionar dinamicamente as linhas relevantes do contexto circundante, dado o objetivo. Avaliações em quatro benchmarks e múltiplos modelos validam a eficácia do SWE-Pruner em vários cenários, alcançando uma redução de 23-54% de *tokens* em tarefas de agente como o SWE-Bench Verified e até 14,84x de compressão em tarefas de turno único como o LongCodeQA, com um impacto mínimo no desempenho.

English

LLM agents have demonstrated remarkable capabilities in software development, but their performance is hampered by long interaction contexts, which incur high API costs and latency. While various context compression approaches such as LongLLMLingua have emerged to tackle this challenge, they typically rely on fixed metrics such as PPL, ignoring the task-specific nature of code understanding. As a result, they frequently disrupt syntactic and logical structure and fail to retain critical implementation details. In this paper, we propose SWE-Pruner, a self-adaptive context pruning framework tailored for coding agents. Drawing inspiration from how human programmers "selectively skim" source code during development and debugging, SWE-Pruner performs task-aware adaptive pruning for long contexts. Given the current task, the agent formulates an explicit goal (e.g., "focus on error handling") as a hint to guide the pruning targets. A lightweight neural skimmer (0.6B parameters) is trained to dynamically select relevant lines from the surrounding context given the goal. Evaluations across four benchmarks and multiple models validate SWE-Pruner's effectiveness in various scenarios, achieving 23-54% token reduction on agent tasks like SWE-Bench Verified and up to 14.84x compression on single-turn tasks like LongCodeQA with minimal performance impact.