AgentOCR: Reimaginando a História dos Agentes por meio da Autocompressão Óptica

Resumo

Avanços recentes em modelos de linguagem de grande porte (LLMs) permitem sistemas agentes treinados com aprendizagem por reforço (RL) sobre trajetórias de interação multi-turno, mas a implantação prática é limitada por históricos textuais em rápido crescimento que inflacionam orçamentos de *tokens* e uso de memória. Apresentamos o AgentOCR, uma estrutura que explora a densidade de informação superior dos *tokens* visuais, representando o histórico acumulado de observação-ação como uma imagem renderizada compacta. Para tornar os *rollouts* multi-turno escaláveis, o AgentOCR propõe o cache óptico por segmentos. Ao decompor o histórico em segmentos *hashable* e manter um cache visual, este mecanismo elimina a re-renderização redundante. Para além da renderização fixa, o AgentOCR introduz a auto-compressão agentiva, na qual o agente emite ativamente uma taxa de compressão e é treinado com uma recompensa consciente da compressão para equilibrar adaptativamente o sucesso da tarefa e a eficiência de *tokens*. Realizamos experiências extensas em benchmarks agentes desafiadores, ALFWorld e QA baseado em pesquisa. Resultados notáveis demonstram que o AgentOCR preserva mais de 95% do desempenho do agente baseado em texto, reduzindo substancialmente o consumo de *tokens* (>50%), proporcionando eficiência consistente de *tokens* e memória. A nossa análise adicional valida uma aceleração de renderização de 20x proveniente do cache óptico por segmentos e o equilíbrio estratégico eficaz da auto-compressão.

English

Recent advances in large language models (LLMs) enable agentic systems trained with reinforcement learning (RL) over multi-turn interaction trajectories, but practical deployment is bottlenecked by rapidly growing textual histories that inflate token budgets and memory usage. We introduce AgentOCR, a framework that exploits the superior information density of visual tokens by representing the accumulated observation-action history as a compact rendered image. To make multi-turn rollouts scalable, AgentOCR proposes segment optical caching. By decomposing history into hashable segments and maintaining a visual cache, this mechanism eliminates redundant re-rendering. Beyond fixed rendering, AgentOCR introduces agentic self-compression, where the agent actively emits a compression rate and is trained with compression-aware reward to adaptively balance task success and token efficiency. We conduct extensive experiments on challenging agentic benchmarks, ALFWorld and search-based QA. Remarkably, results demonstrate that AgentOCR preserves over 95\% of text-based agent performance while substantially reducing token consumption (>50\%), yielding consistent token and memory efficiency. Our further analysis validates a 20x rendering speedup from segment optical caching and the effective strategic balancing of self-compression.

AgentOCR: Reimaginando a História dos Agentes por meio da Autocompressão Óptica

AgentOCR: Reimagining Agent History via Optical Self-Compression

Resumo

Support