ChatPaper.aiChatPaper

AgentOCR: Heruitvinding van Agentgeschiedenis via Optische Zelfcompressie

AgentOCR: Reimagining Agent History via Optical Self-Compression

January 8, 2026
Auteurs: Lang Feng, Fuchao Yang, Feng Chen, Xin Cheng, Haiyang Xu, Zhenglin Wan, Ming Yan, Bo An
cs.AI

Samenvatting

Recente vooruitgang in grote taalmmodellen (LLM's) maakt agent-systemen mogelijk die zijn getraind met reinforcement learning (RL) op multi-turn interactietrajecten. De praktische inzet wordt echter beperkt door snel groeiende tekstuele geschiedenissen, die tokenbudgetten en geheugengebruik opdrijven. Wij introduceren AgentOCR, een raamwerk dat de superieure informatiedichtheid van visuele tokens benut door de opgebouwde observatie-actiegeschiedenis weer te geven als een compact gerenderde afbeelding. Om multi-turn rollouts schaalbaar te maken, stelt AgentOCR *segment optical caching* voor. Door de geschiedenis op te delen in hasbare segmenten en een visuele cache te onderhouden, elimineert dit mechanisme redundante herhalingen van rendering. Naast vaste rendering introduceert AgentOCR *agentic self-compression*, waarbij de agent actief een compressieratio uitgeeft en wordt getraind met een compressiebewuste beloning om adaptief een balans te vinden tussen taaksucces en tokenefficiëntie. Wij voeren uitgebreide experimenten uit op uitdagende agent-gebaseerde benchmarks, ALFWorld en op zoekopdrachten gebaseerde vraag-antwoordtaken. Opmerkelijk is dat de resultaten aantonen dat AgentOCR meer dan 95% van de prestaties van op tekst gebaseerde agents behoudt, terwijl het het tokenverbruik aanzienlijk vermindert (>50%), wat resulteert in consistente token- en geheugenefficiëntie. Onze verdere analyse valideert een 20x versnelling van rendering door *segment optical caching* en het effectieve strategische evenwicht van zelfcompressie.
English
Recent advances in large language models (LLMs) enable agentic systems trained with reinforcement learning (RL) over multi-turn interaction trajectories, but practical deployment is bottlenecked by rapidly growing textual histories that inflate token budgets and memory usage. We introduce AgentOCR, a framework that exploits the superior information density of visual tokens by representing the accumulated observation-action history as a compact rendered image. To make multi-turn rollouts scalable, AgentOCR proposes segment optical caching. By decomposing history into hashable segments and maintaining a visual cache, this mechanism eliminates redundant re-rendering. Beyond fixed rendering, AgentOCR introduces agentic self-compression, where the agent actively emits a compression rate and is trained with compression-aware reward to adaptively balance task success and token efficiency. We conduct extensive experiments on challenging agentic benchmarks, ALFWorld and search-based QA. Remarkably, results demonstrate that AgentOCR preserves over 95\% of text-based agent performance while substantially reducing token consumption (>50\%), yielding consistent token and memory efficiency. Our further analysis validates a 20x rendering speedup from segment optical caching and the effective strategic balancing of self-compression.
PDF272January 16, 2026