ChatPaper.aiChatPaper

AgentOCR: Neugestaltung der Agentengeschichte durch optische Selbstkompression

AgentOCR: Reimagining Agent History via Optical Self-Compression

January 8, 2026
papers.authors: Lang Feng, Fuchao Yang, Feng Chen, Xin Cheng, Haiyang Xu, Zhenglin Wan, Ming Yan, Bo An
cs.AI

papers.abstract

Jüngste Fortschritte bei großen Sprachmodellen (LLMs) ermöglichen agentenbasierte Systeme, die mit Verstärkungslernen (RL) über mehrstufige Interaktionsverläufe trainiert werden. Die praktische Anwendung wird jedoch durch schnell wachsende Textverläufe eingeschränkt, die Token-Budgets und Speicherverbrauch in die Höhe treiben. Wir stellen AgentOCR vor, ein Framework, das die überlegene Informationsdichte visueller Tokens nutzt, indem es den akkumulierten Beobachtungs-Aktions-Verlauf als kompaktes gerendertes Bild darstellt. Um mehrstufige Rollouts skalierbar zu machen, schlägt AgentOCR segmentbasiertes optisches Caching vor. Dieser Mechanismus zerlegt den Verlauf in hashbare Segmente und verwaltet einen visuellen Cache, um redundantes Neu-Rendern zu eliminieren. Über feste Darstellungen hinaus führt AgentOCR agentische Selbstkompression ein, bei der der Agent aktiv eine Kompressionsrate ausgibt und mit kompressionssensiblem Reward trainiert wird, um Aufgaben-erfolg und Token-Effizienz adaptiv auszubalancieren. Wir führen umfangreiche Experimente auf anspruchsvollen agentischen Benchmarks durch: ALFWorld und suchbasierte Frageantwortung. Bemerkenswerterweise zeigen die Ergebnisse, dass AgentOCR über 95 % der Leistung textbasierter Agenten bewahrt und gleichzeitig den Token-Verbrauch erheblich reduziert (>50 %), was zu konsistenter Token- und Speichereffizienz führt. Unsere weitere Analyse validiert eine 20-fache Beschleunigung des Renderings durch segmentbasiertes optisches Caching sowie die effektive strategische Balance der Selbstkompression.
English
Recent advances in large language models (LLMs) enable agentic systems trained with reinforcement learning (RL) over multi-turn interaction trajectories, but practical deployment is bottlenecked by rapidly growing textual histories that inflate token budgets and memory usage. We introduce AgentOCR, a framework that exploits the superior information density of visual tokens by representing the accumulated observation-action history as a compact rendered image. To make multi-turn rollouts scalable, AgentOCR proposes segment optical caching. By decomposing history into hashable segments and maintaining a visual cache, this mechanism eliminates redundant re-rendering. Beyond fixed rendering, AgentOCR introduces agentic self-compression, where the agent actively emits a compression rate and is trained with compression-aware reward to adaptively balance task success and token efficiency. We conduct extensive experiments on challenging agentic benchmarks, ALFWorld and search-based QA. Remarkably, results demonstrate that AgentOCR preserves over 95\% of text-based agent performance while substantially reducing token consumption (>50\%), yielding consistent token and memory efficiency. Our further analysis validates a 20x rendering speedup from segment optical caching and the effective strategic balancing of self-compression.
PDF181January 13, 2026