Un Quadro Auto-Evolutivo per Agenti Terminali Efficienti tramite Compressione del Contesto Osservazionale

Abstract

Con l'avanzamento delle capacità dei modelli, la ricerca si è sempre più orientata verso compiti agentivi centrati sul terminale, a lungo orizzonte e multi-turno, dove il feedback grezzo dell'ambiente viene spesso preservato nella cronologia delle interazioni per supportare le decisioni future. Tuttavia, la conservazione ripetuta di tale feedback introduce una sostanziale ridondanza e fa sì che il costo cumulativo dei token cresca quadraticamente con il numero di passi, ostacolando il ragionamento a lungo termine. Sebbene la compressione delle osservazioni possa mitigare questo problema, l'eterogeneità degli ambienti terminali rende difficile generalizzare metodi euristici o basati su prompt fissi. Proponiamo TACO, un framework di compressione per agenti terminali plug-and-play e auto-evolutivo, che scopre e affina automaticamente regole di compressione dalle traiettorie di interazione per agenti terminali esistenti. Esperimenti su TerminalBench (TB 1.0 e TB 2.0) e su altri quattro benchmark relativi al terminale (ovvero SWE-Bench Lite, CompileBench, DevEval e CRUST-Bench) mostrano che TACO migliora costantemente le prestazioni attraverso i principali framework agentivi e modelli backbone potenti. Con MiniMax-2.5, migliora le prestazioni sulla maggior parte dei benchmark riducendo al contempo l'overhead dei token di circa il 10%. Su TerminalBench, apporta miglioramenti consistenti dell'1%-4% su modelli agentivi robusti e aumenta ulteriormente l'accuratezza di circa il 2%-3% a parità di budget di token. Questi risultati dimostrano l'efficacia e la generalizzazione della compressione auto-evolutiva e consapevole del compito per gli agenti terminali.

English

As model capabilities advance, research has increasingly shifted toward long-horizon, multi-turn terminal-centric agentic tasks, where raw environment feedback is often preserved in the interaction history to support future decisions. However, repeatedly retaining such feedback introduces substantial redundancy and causes cumulative token cost to grow quadratically with the number of steps, hindering long-horizon reasoning. Although observation compression can mitigate this issue, the heterogeneity of terminal environments makes heuristic-based or fixed-prompt methods difficult to generalize. We propose TACO, a plug-and-play, self-evolving Terminal Agent Compression framework that automatically discovers and refines compression rules from interaction trajectories for existing terminal agents. Experiments on TerminalBench (TB 1.0 and TB 2.0) and four additional terminal-related benchmarks (i.e., SWE-Bench Lite, CompileBench, DevEval, and CRUST-Bench) show that TACO consistently improves performance across mainstream agent frameworks and strong backbone models. With MiniMax-2.5, it improves performance on most benchmarks while reducing token overhead by around 10%. On TerminalBench, it brings consistent gains of 1%-4% across strong agentic models, and further improves accuracy by around 2%-3% under the same token budget. These results demonstrate the effectiveness and generalization of self-evolving, task-aware compression for terminal agents.

Un Quadro Auto-Evolutivo per Agenti Terminali Efficienti tramite Compressione del Contesto Osservazionale

A Self-Evolving Framework for Efficient Terminal Agents via Observational Context Compression

Abstract

Support