Саморазвивающаяся система для эффективных терминальных агентов через сжатие наблюдательного контекста

Аннотация

По мере развития возможностей моделей исследования все больше смещаются в сторону долгосрочных, многошаговых агентских задач, ориентированных на терминал, где необработанная обратная связь от среды часто сохраняется в истории взаимодействий для поддержки будущих решений. Однако многократное сохранение такой обратной связи приводит к значительной избыточности и вызывает квадратичный рост совокупной стоимости токенов с увеличением числа шагов, что затрудняет долгосрочное рассуждение. Хотя сжатие наблюдений может смягчить эту проблему, гетерогенность терминальных сред затрудняет обобщение эвристических методов или методов с фиксированными промптами. Мы предлагаем TACO, модульную саморазвивающуюся структуру сжатия терминальных агентов (Terminal Agent Compression), которая автоматически обнаруживает и совершенствует правила сжатия из траекторий взаимодействия для существующих терминальных агентов. Эксперименты на TerminalBench (TB 1.0 и TB 2.0) и четырех дополнительных benchmarks, связанных с терминалом (а именно, SWE-Bench Lite, CompileBench, DevEval и CRUST-Bench), показывают, что TACO стабильно улучшает производительность across основным агентским фреймворкам и мощным базовым моделям. С MiniMax-2.5 она улучшает производительность на большинстве бенчмарков, одновременно сокращая нагрузку по токенам примерно на 10%. На TerminalBench она обеспечивает стабильный прирост в 1%-4% для различных мощных агентских моделей и дополнительно повышает точность примерно на 2%-3% при том же бюджете токенов. Эти результаты демонстрируют эффективность и обобщаемость саморазвивающегося, учитывающего задачу сжатия для терминальных агентов.

English

As model capabilities advance, research has increasingly shifted toward long-horizon, multi-turn terminal-centric agentic tasks, where raw environment feedback is often preserved in the interaction history to support future decisions. However, repeatedly retaining such feedback introduces substantial redundancy and causes cumulative token cost to grow quadratically with the number of steps, hindering long-horizon reasoning. Although observation compression can mitigate this issue, the heterogeneity of terminal environments makes heuristic-based or fixed-prompt methods difficult to generalize. We propose TACO, a plug-and-play, self-evolving Terminal Agent Compression framework that automatically discovers and refines compression rules from interaction trajectories for existing terminal agents. Experiments on TerminalBench (TB 1.0 and TB 2.0) and four additional terminal-related benchmarks (i.e., SWE-Bench Lite, CompileBench, DevEval, and CRUST-Bench) show that TACO consistently improves performance across mainstream agent frameworks and strong backbone models. With MiniMax-2.5, it improves performance on most benchmarks while reducing token overhead by around 10%. On TerminalBench, it brings consistent gains of 1%-4% across strong agentic models, and further improves accuracy by around 2%-3% under the same token budget. These results demonstrate the effectiveness and generalization of self-evolving, task-aware compression for terminal agents.

Саморазвивающаяся система для эффективных терминальных агентов через сжатие наблюдательного контекста

A Self-Evolving Framework for Efficient Terminal Agents via Observational Context Compression

Аннотация

Support