SWE-Pruner: Poda de Contexto Autoadaptativa para Agentes de Programación

Resumen

Los agentes de LLM han demostrado capacidades notables en el desarrollo de software, pero su rendimiento se ve obstaculizado por contextos de interacción largos, que conllevan altos costos de API y latencia. Si bien han surgido diversos enfoques de compresión de contexto, como LongLLMLingua, para abordar este desafío, estos suelen depender de métricas fijas como el PPL (Perplejidad), ignorando la naturaleza específica de la tarea en la comprensión de código. Como resultado, frecuentemente alteran la estructura sintáctica y lógica y no logran retener detalles de implementación críticos. En este artículo, proponemos SWE-Pruner, un marco de poda de contexto auto-adaptable diseñado específicamente para agentes de programación. Inspirándonos en cómo los programadores humanos "leen selectivamente" el código fuente durante el desarrollo y la depuración, SWE-Pruner realiza una poda adaptativa consciente de la tarea para contextos largos. Dada la tarea actual, el agente formula un objetivo explícito (por ejemplo, "centrarse en el manejo de errores") como una pista para guiar los objetivos de la poda. Se entrena un "skimmer" neuronal ligero (0.600 millones de parámetros) para seleccionar dinámicamente líneas relevantes del contexto circundante según el objetivo. Las evaluaciones en cuatro benchmarks y con múltiples modelos validan la efectividad de SWE-Pruner en varios escenarios, logrando una reducción de tokens del 23-54% en tareas de agente como SWE-Bench Verified y hasta una compresión de 14.84x en tareas de un solo turno como LongCodeQA, con un impacto mínimo en el rendimiento.

English

LLM agents have demonstrated remarkable capabilities in software development, but their performance is hampered by long interaction contexts, which incur high API costs and latency. While various context compression approaches such as LongLLMLingua have emerged to tackle this challenge, they typically rely on fixed metrics such as PPL, ignoring the task-specific nature of code understanding. As a result, they frequently disrupt syntactic and logical structure and fail to retain critical implementation details. In this paper, we propose SWE-Pruner, a self-adaptive context pruning framework tailored for coding agents. Drawing inspiration from how human programmers "selectively skim" source code during development and debugging, SWE-Pruner performs task-aware adaptive pruning for long contexts. Given the current task, the agent formulates an explicit goal (e.g., "focus on error handling") as a hint to guide the pruning targets. A lightweight neural skimmer (0.6B parameters) is trained to dynamically select relevant lines from the surrounding context given the goal. Evaluations across four benchmarks and multiple models validate SWE-Pruner's effectiveness in various scenarios, achieving 23-54% token reduction on agent tasks like SWE-Bench Verified and up to 14.84x compression on single-turn tasks like LongCodeQA with minimal performance impact.