Ein sich selbst entwickelndes Framework für effiziente Terminal-Agenten durch Beobachtungskontextkomprimierung

Zusammenfassung

Mit fortschreitenden Modellfähigkeiten hat sich die Forschung zunehmend auf langfristige, mehrstufige, terminalzentrierte agentenbasierte Aufgaben verlagert, bei denen Rohrückmeldungen aus der Umgebung häufig im Interaktionsverlauf gespeichert werden, um zukünftige Entscheidungen zu unterstützen. Die wiederholte Beibehaltung solcher Rückmeldungen führt jedoch zu erheblicher Redundanz und bewirkt, dass die kumulativen Token-Kosten quadratisch mit der Anzahl der Schritte wachsen, was langfristiges Schlussfolgern behindert. Obwohl Beobachtungskompression dieses Problem mildern kann, erschwert die Heterogenität von Terminalumgebungen die Generalisierung heuristischer oder fest vorgegebener Prompt-Methoden. Wir schlagen TACO vor, ein plug-and-play, sich selbst entwickelndes Terminal Agent Compression Framework, das automatisch Kompressionsregeln aus Interaktionsverläufen für bestehende Terminal-Agenten entdeckt und verfeinert. Experimente auf TerminalBench (TB 1.0 und TB 2.0) und vier weiteren terminalbezogenen Benchmarks (d.h. SWE-Bench Lite, CompileBench, DevEval und CRUST-Bench) zeigen, dass TACO die Leistung über主流 Agenten-Frameworks und starke Basismodelle hinweg konsistent verbessert. Mit MiniMax-2.5 steigert es die Leistung auf den meisten Benchmarks bei gleichzeitiger Reduzierung des Token-Overheads um etwa 10%. Auf TerminalBench erzielt es konsistent Gewinne von 1 %–4 % über starke agentenbasierte Modelle hinweg und verbessert die Genauigkeit unter dem gleichen Token-Budget weiter um etwa 2 %–3 %. Diese Ergebnisse demonstrieren die Wirksamkeit und Generalisierbarkeit von sich selbst entwickelnder, aufgabenbewusster Kompression für Terminal-Agenten.

English

As model capabilities advance, research has increasingly shifted toward long-horizon, multi-turn terminal-centric agentic tasks, where raw environment feedback is often preserved in the interaction history to support future decisions. However, repeatedly retaining such feedback introduces substantial redundancy and causes cumulative token cost to grow quadratically with the number of steps, hindering long-horizon reasoning. Although observation compression can mitigate this issue, the heterogeneity of terminal environments makes heuristic-based or fixed-prompt methods difficult to generalize. We propose TACO, a plug-and-play, self-evolving Terminal Agent Compression framework that automatically discovers and refines compression rules from interaction trajectories for existing terminal agents. Experiments on TerminalBench (TB 1.0 and TB 2.0) and four additional terminal-related benchmarks (i.e., SWE-Bench Lite, CompileBench, DevEval, and CRUST-Bench) show that TACO consistently improves performance across mainstream agent frameworks and strong backbone models. With MiniMax-2.5, it improves performance on most benchmarks while reducing token overhead by around 10%. On TerminalBench, it brings consistent gains of 1%-4% across strong agentic models, and further improves accuracy by around 2%-3% under the same token budget. These results demonstrate the effectiveness and generalization of self-evolving, task-aware compression for terminal agents.

Ein sich selbst entwickelndes Framework für effiziente Terminal-Agenten durch Beobachtungskontextkomprimierung

A Self-Evolving Framework for Efficient Terminal Agents via Observational Context Compression

Zusammenfassung

Support