ACON: Otimização da Compressão de Contexto para Agentes de LLM de Longo Horizonte
ACON: Optimizing Context Compression for Long-horizon LLM Agents
October 1, 2025
Autores: Minki Kang, Wei-Ning Chen, Dongge Han, Huseyin A. Inan, Lukas Wutschitz, Yanzhi Chen, Robert Sim, Saravan Rajmohan
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) estão sendo cada vez mais implantados como agentes em ambientes dinâmicos e do mundo real, onde o sucesso requer tanto raciocínio quanto o uso eficaz de ferramentas. Um desafio central para tarefas agentivas é o aumento do comprimento do contexto, já que os agentes devem acumular longos históricos de ações e observações. Essa expansão eleva os custos e reduz a eficiência em tarefas de longo horizonte, mas trabalhos anteriores sobre compressão de contexto focaram principalmente em tarefas de etapa única ou aplicações restritas. Introduzimos a Otimização de Contexto de Agente (ACON), uma estrutura unificada que comprime de forma ideal tanto as observações do ambiente quanto os históricos de interação em condensações concisas, porém informativas. A ACON aproveita a otimização de diretrizes de compressão no espaço de linguagem natural: dadas trajetórias pareadas onde o contexto completo tem sucesso, mas o contexto comprimido falha, LLMs capazes analisam as causas da falha, e a diretriz de compressão é atualizada de acordo. Além disso, propomos destilar o compressor LLM otimizado em modelos menores para reduzir a sobrecarga do módulo adicional. Experimentos no AppWorld, OfficeBench e Multi-objective QA mostram que a ACON reduz o uso de memória em 26-54% (tokens de pico) enquanto mantém amplamente o desempenho da tarefa, preserva mais de 95% da precisão quando destilada em compressores menores e aprimora LLMs menores como agentes de longo horizonte com uma melhoria de desempenho de até 46%.
English
Large language models (LLMs) are increasingly deployed as agents in dynamic,
real-world environments, where success requires both reasoning and effective
tool use. A central challenge for agentic tasks is the growing context length,
as agents must accumulate long histories of actions and observations. This
expansion raises costs and reduces efficiency in long-horizon tasks, yet prior
work on context compression has mostly focused on single-step tasks or narrow
applications. We introduce Agent Context Optimization (ACON), a unified
framework that optimally compresses both environment observations and
interaction histories into concise yet informative condensations. ACON
leverages compression guideline optimization in natural language space: given
paired trajectories where full context succeeds but compressed context fails,
capable LLMs analyze the causes of failure, and the compression guideline is
updated accordingly. Furthermore, we propose distilling the optimized LLM
compressor into smaller models to reduce the overhead of the additional module.
Experiments on AppWorld, OfficeBench, and Multi-objective QA show that ACON
reduces memory usage by 26-54% (peak tokens) while largely preserving task
performance, preserves over 95% of accuracy when distilled into smaller
compressors, and enhances smaller LMs as long-horizon agents with up to 46%
performance improvement.