AgentOCR: Reinvenzione della Storia degli Agenti tramite Auto-Compressione Ottica

Abstract

I recenti progressi nei grandi modelli linguistici (LLM) abilitano sistemi agenti addestrati con apprendimento per rinforzo (RL) su traiettorie di interazione multi-turno, ma la diffusione pratica è limitata dalla rapida crescita delle cronologie testuali che gonfiano i budget di token e l'utilizzo di memoria. Introduciamo AgentOCR, un framework che sfrutta la densità informativa superiore dei token visivi rappresentando la cronologia accumulata di osservazioni-azioni come un'immagine renderizzata compatta. Per rendere scalabili i rollout multi-turno, AgentOCR propone la segment optical caching. Scomponendo la cronologia in segmenti hashable e mantenendo una cache visiva, questo meccanismo elimina il re-rendering ridondante. Oltre al rendering fisso, AgentOCR introduce l'agentic self-compression, dove l'agente emette attivamente un tasso di compressione ed è addestrato con una ricompensa compression-aware per bilanciare adattivamente il successo del task e l'efficienza dei token. Condividiamo esperimenti estesi su benchmark agentici complessi, ALFWorld e QA basato su ricerca. Notevolmente, i risultati dimostrano che AgentOCR preserva oltre il 95% delle prestazioni dell'agente basato su testo riducendo sostanzialmente il consumo di token (>50%), garantendo un'efficienza consistente di token e memoria. La nostra ulteriore analizza convalida un aumento di velocità di rendering di 20x dalla segment optical caching e l'effettivo bilanciamento strategico della self-compression.

English

Recent advances in large language models (LLMs) enable agentic systems trained with reinforcement learning (RL) over multi-turn interaction trajectories, but practical deployment is bottlenecked by rapidly growing textual histories that inflate token budgets and memory usage. We introduce AgentOCR, a framework that exploits the superior information density of visual tokens by representing the accumulated observation-action history as a compact rendered image. To make multi-turn rollouts scalable, AgentOCR proposes segment optical caching. By decomposing history into hashable segments and maintaining a visual cache, this mechanism eliminates redundant re-rendering. Beyond fixed rendering, AgentOCR introduces agentic self-compression, where the agent actively emits a compression rate and is trained with compression-aware reward to adaptively balance task success and token efficiency. We conduct extensive experiments on challenging agentic benchmarks, ALFWorld and search-based QA. Remarkably, results demonstrate that AgentOCR preserves over 95\% of text-based agent performance while substantially reducing token consumption (>50\%), yielding consistent token and memory efficiency. Our further analysis validates a 20x rendering speedup from segment optical caching and the effective strategic balancing of self-compression.

AgentOCR: Reinvenzione della Storia degli Agenti tramite Auto-Compressione Ottica

AgentOCR: Reimagining Agent History via Optical Self-Compression

Abstract

Support