Un Cadre d'Auto-Évolution pour des Agents Terminaux Efficaces via la Compression du Contexte Observationnel

Résumé

Au fur et à mesure que les capacités des modèles progressent, la recherche s'oriente de plus en plus vers des tâches agentiques centrées sur le terminal, à long terme et multi-tours, où les retours bruts de l'environnement sont souvent conservés dans l'historique des interactions pour étayer les décisions futures. Cependant, la conservation répétée de ces retours introduit une redondance substantielle et entraîne une croissance quadratique du coût cumulé en tokens avec le nombre d'étapes, entravant le raisonnement à long terme. Bien que la compression des observations puisse atténuer ce problème, l'hétérogénéité des environnements terminaux rend les méthodes heuristiques ou à prompt fixe difficiles à généraliser. Nous proposons TACO, un cadre de compression agentique pour terminal, plug-and-play et auto-évolutif, qui découvre et affine automatiquement les règles de compression à partir des trajectoires d'interaction pour les agents terminaux existants. Les expériences sur TerminalBench (TB 1.0 et TB 2.0) et quatre benchmarks supplémentaires liés aux terminaux (à savoir SWE-Bench Lite, CompileBench, DevEval et CRUST-Bench) montrent que TACO améliore constamment les performances across les principaux frameworks d'agents et les modèles de base robustes. Avec MiniMax-2.5, il améliore les performances sur la plupart des benchmarks tout en réduisant la surcharge en tokens d'environ 10%. Sur TerminalBench, il apporte des gains constants de 1% à 4% sur les modèles agentiques robustes, et améliore encore la précision d'environ 2% à 3% pour un budget en tokens identique. Ces résultats démontrent l'efficacité et la généralisation de la compression auto-évolutive et consciente de la tâche pour les agents terminaux.

English

As model capabilities advance, research has increasingly shifted toward long-horizon, multi-turn terminal-centric agentic tasks, where raw environment feedback is often preserved in the interaction history to support future decisions. However, repeatedly retaining such feedback introduces substantial redundancy and causes cumulative token cost to grow quadratically with the number of steps, hindering long-horizon reasoning. Although observation compression can mitigate this issue, the heterogeneity of terminal environments makes heuristic-based or fixed-prompt methods difficult to generalize. We propose TACO, a plug-and-play, self-evolving Terminal Agent Compression framework that automatically discovers and refines compression rules from interaction trajectories for existing terminal agents. Experiments on TerminalBench (TB 1.0 and TB 2.0) and four additional terminal-related benchmarks (i.e., SWE-Bench Lite, CompileBench, DevEval, and CRUST-Bench) show that TACO consistently improves performance across mainstream agent frameworks and strong backbone models. With MiniMax-2.5, it improves performance on most benchmarks while reducing token overhead by around 10%. On TerminalBench, it brings consistent gains of 1%-4% across strong agentic models, and further improves accuracy by around 2%-3% under the same token budget. These results demonstrate the effectiveness and generalization of self-evolving, task-aware compression for terminal agents.

Un Cadre d'Auto-Évolution pour des Agents Terminaux Efficaces via la Compression du Contexte Observationnel

A Self-Evolving Framework for Efficient Terminal Agents via Observational Context Compression

Résumé

Support