Een zelf-evoluerend raamwerk voor efficiënte terminale agenten via observationele contextcompressie

Samenvatting

Naarmate de modelcapaciteiten vorderen, verschuift onderzoek steeds meer naar langetermijn, multi-turn taakgerichte agenttaken, waarbij ruime omgevingsfeedback vaak behouden blijft in de interactiegeschiedenis om toekomstige beslissingen te ondersteunen. Het herhaaldelijk behouden van dergelijke feedback introduceert echter aanzienlijke redundantie en zorgt ervoor dat de cumulatieve tokentocht kwadratisch toeneemt met het aantal stappen, wat langetermijnredenering belemmert. Hoewel observatiecompressie dit probleem kan verzachten, maakt de heterogeniteit van terminalomgevingen op heuristiek gebaseerde of fixed-prompt methoden moeilijk generaliseerbaar. Wij stellen TACO voor, een plug-and-play, zelf-evoluerend Terminal Agent Compression-framework dat automatisch compressieregels ontdekt en verfijnt uit interactietrajecten voor bestaande terminalagents. Experimenten op TerminalBench (TB 1.0 en TB 2.0) en vier aanvullende terminalgerichte benchmarks (zoals SWE-Bench Lite, CompileBench, DevEval en CRUST-Bench) tonen aan dat TACO consequent de prestaties verbetert across mainstream agentframeworks en sterke backbone-modellen. Met MiniMax-2.5 verbetert het de prestaties op de meeste benchmarks terwijl de tokenoverhead met ongeveer 10% wordt verminderd. Op TerminalBench levert het consistente winsten van 1%-4% op across sterke agentmodellen, en verbetert het de nauwkeurigheid verder met ongeveer 2%-3% binnen hetzelfde tokentocht. Deze resultaten demonstreren de effectiviteit en generalisatie van zelf-evoluerende, taakbewuste compressie voor terminalagents.

English

As model capabilities advance, research has increasingly shifted toward long-horizon, multi-turn terminal-centric agentic tasks, where raw environment feedback is often preserved in the interaction history to support future decisions. However, repeatedly retaining such feedback introduces substantial redundancy and causes cumulative token cost to grow quadratically with the number of steps, hindering long-horizon reasoning. Although observation compression can mitigate this issue, the heterogeneity of terminal environments makes heuristic-based or fixed-prompt methods difficult to generalize. We propose TACO, a plug-and-play, self-evolving Terminal Agent Compression framework that automatically discovers and refines compression rules from interaction trajectories for existing terminal agents. Experiments on TerminalBench (TB 1.0 and TB 2.0) and four additional terminal-related benchmarks (i.e., SWE-Bench Lite, CompileBench, DevEval, and CRUST-Bench) show that TACO consistently improves performance across mainstream agent frameworks and strong backbone models. With MiniMax-2.5, it improves performance on most benchmarks while reducing token overhead by around 10%. On TerminalBench, it brings consistent gains of 1%-4% across strong agentic models, and further improves accuracy by around 2%-3% under the same token budget. These results demonstrate the effectiveness and generalization of self-evolving, task-aware compression for terminal agents.

Een zelf-evoluerend raamwerk voor efficiënte terminale agenten via observationele contextcompressie

A Self-Evolving Framework for Efficient Terminal Agents via Observational Context Compression

Samenvatting

Support