Um Framework de Auto-Evolução para Agentes de Terminal Eficientes via Compressão de Contexto Observacional

Resumo

À medida que as capacidades dos modelos avançam, a pesquisa tem se deslocado cada vez mais para tarefas agentivas centradas em terminal de longo horizonte e multi-turn, em que o feedback bruto do ambiente é frequentemente preservado no histórico de interação para apoiar decisões futuras. No entanto, a retenção repetida desse feedback introduz substancial redundância e faz com que o custo cumulativo de tokens cresça quadraticamente com o número de passos, prejudicando o raciocínio de longo horizonte. Embora a compressão de observações possa mitigar este problema, a heterogeneidade dos ambientes de terminal torna difícil a generalização de métodos baseados em heurística ou de prompt fixo. Propomos o TACO, uma estrutura de Compressão de Agente de Terminal plug-and-play e auto-evolutiva que descobre e refina automaticamente regras de compressão a partir de trajetórias de interação para agentes de terminal existentes. Experimentos no TerminalBench (TB 1.0 e TB 2.0) e em quatro benchmarks adicionais relacionados a terminal (ou seja, SWE-Bench Lite, CompileBench, DevEval e CRUST-Bench) mostram que o TACO melhora consistentemente o desempenho em estruturas agentes principais e modelos de base fortes. Com o MiniMax-2.5, ele melhora o desempenho na maioria dos benchmarks enquanto reduz a sobrecarga de tokens em cerca de 10%. No TerminalBench, ele traz ganhos consistentes de 1%-4% em modelos agentes fortes e ainda melhora a precisão em cerca de 2%-3% sob o mesmo orçamento de tokens. Esses resultados demonstram a eficácia e generalização da compressão auto-evolutiva e consciente da tarefa para agentes de terminal.

English

As model capabilities advance, research has increasingly shifted toward long-horizon, multi-turn terminal-centric agentic tasks, where raw environment feedback is often preserved in the interaction history to support future decisions. However, repeatedly retaining such feedback introduces substantial redundancy and causes cumulative token cost to grow quadratically with the number of steps, hindering long-horizon reasoning. Although observation compression can mitigate this issue, the heterogeneity of terminal environments makes heuristic-based or fixed-prompt methods difficult to generalize. We propose TACO, a plug-and-play, self-evolving Terminal Agent Compression framework that automatically discovers and refines compression rules from interaction trajectories for existing terminal agents. Experiments on TerminalBench (TB 1.0 and TB 2.0) and four additional terminal-related benchmarks (i.e., SWE-Bench Lite, CompileBench, DevEval, and CRUST-Bench) show that TACO consistently improves performance across mainstream agent frameworks and strong backbone models. With MiniMax-2.5, it improves performance on most benchmarks while reducing token overhead by around 10%. On TerminalBench, it brings consistent gains of 1%-4% across strong agentic models, and further improves accuracy by around 2%-3% under the same token budget. These results demonstrate the effectiveness and generalization of self-evolving, task-aware compression for terminal agents.

Um Framework de Auto-Evolução para Agentes de Terminal Eficientes via Compressão de Contexto Observacional

A Self-Evolving Framework for Efficient Terminal Agents via Observational Context Compression

Resumo

Support