Un Marco de Auto-Evolución para Agentes de Terminal Eficientes mediante Compresión de Contexto Observacional

Resumen

A medida que avanzan las capacidades de los modelos, la investigación se ha desplazado cada vez más hacia tareas agentivas centradas en terminales, de horizonte largo y múltiples turnos, donde la retroalimentación cruda del entorno a menudo se conserva en el historial de interacción para respaldar decisiones futuras. Sin embargo, la retención repetida de dicha retroalimentación introduce una sustancial redundancia y hace que el costo acumulado de *tokens* crezca cuadráticamente con el número de pasos, dificultando el razonamiento de horizonte largo. Aunque la compresión de observaciones puede mitigar este problema, la heterogeneidad de los entornos de terminal hace que los métodos basados en heurísticas o de *prompt* fijo sean difíciles de generalizar. Proponemos TACO, un marco de Compresión de Agentes de Terminal auto-evolutivo y *plug-and-play* que descubre y refina automáticamente reglas de compresión a partir de trayectorias de interacción para agentes de terminal existentes. Los experimentos en TerminalBench (TB 1.0 y TB 2.0) y cuatro benchmarks adicionales relacionados con terminales (es decir, SWE-Bench Lite, CompileBench, DevEval y CRUST-Bench) muestran que TACO mejora consistentemente el rendimiento en los marcos agentivos principales y en modelos base fuertes. Con MiniMax-2.5, mejora el rendimiento en la mayoría de los benchmarks mientras reduce la sobrecarga de *tokens* en aproximadamente un 10%. En TerminalBench, aporta ganancias consistentes del 1%-4% en varios modelos agentivos fuertes, y mejora aún más la precisión en aproximadamente un 2%-3% bajo el mismo presupuesto de *tokens*. Estos resultados demuestran la efectividad y generalización de la compresión auto-evolutiva y consciente de la tarea para agentes de terminal.

English

As model capabilities advance, research has increasingly shifted toward long-horizon, multi-turn terminal-centric agentic tasks, where raw environment feedback is often preserved in the interaction history to support future decisions. However, repeatedly retaining such feedback introduces substantial redundancy and causes cumulative token cost to grow quadratically with the number of steps, hindering long-horizon reasoning. Although observation compression can mitigate this issue, the heterogeneity of terminal environments makes heuristic-based or fixed-prompt methods difficult to generalize. We propose TACO, a plug-and-play, self-evolving Terminal Agent Compression framework that automatically discovers and refines compression rules from interaction trajectories for existing terminal agents. Experiments on TerminalBench (TB 1.0 and TB 2.0) and four additional terminal-related benchmarks (i.e., SWE-Bench Lite, CompileBench, DevEval, and CRUST-Bench) show that TACO consistently improves performance across mainstream agent frameworks and strong backbone models. With MiniMax-2.5, it improves performance on most benchmarks while reducing token overhead by around 10%. On TerminalBench, it brings consistent gains of 1%-4% across strong agentic models, and further improves accuracy by around 2%-3% under the same token budget. These results demonstrate the effectiveness and generalization of self-evolving, task-aware compression for terminal agents.

Un Marco de Auto-Evolución para Agentes de Terminal Eficientes mediante Compresión de Contexto Observacional

A Self-Evolving Framework for Efficient Terminal Agents via Observational Context Compression

Resumen

Support