ChatPaper.aiChatPaper

AgentOCR: 光学自己圧縮によるエージェント履歴の再構築

AgentOCR: Reimagining Agent History via Optical Self-Compression

January 8, 2026
著者: Lang Feng, Fuchao Yang, Feng Chen, Xin Cheng, Haiyang Xu, Zhenglin Wan, Ming Yan, Bo An
cs.AI

要旨

大規模言語モデル(LLM)の最近の進歩により、マルチターン相互作用軌跡に対する強化学習(RL)で訓練されたエージェントシステムが可能となったが、実際の展開は、トークン予算とメモリ使用量を膨張させる急増するテキスト履歴によってボトルネックとなっている。本論文では、蓄積された観測-行動履歴をコンパクトなレンダリング画像として表現することで、視覚トークンの優れた情報密度を活用するAgentOCRフレームワークを提案する。マルチターンロールアウトのスケーラビリティを実現するため、AgentOCRはセグメント光学キャッシュを提案する。履歴をハッシュ可能なセグメントに分解し、視覚キャッシュを維持するこのメカニズムにより、冗長な再レンダリングが排除される。固定レンダリングを超えて、AgentOCRはエージェント的自己圧縮を導入する。エージェントが能動的に圧縮率を出力し、圧縮を考慮した報酬で訓練されることで、タスク成功率とトークン効率の適応的バランスが図られる。挑戦的なエージェントベンチマークであるALFWorldおよび検索ベースQAを用いた広範な実験を実施した。顕著な結果として、AgentOCRはテキストベースエージェントの性能を95%以上維持しながら、トークン消費量を大幅に削減(>50%)し、一貫したトークン及びメモリ効率を実現することが示された。さらなる分析により、セグメント光学キャッシュによる20倍のレンダリング速度向上と、自己圧縮の効果的な戦略的バランス調整が検証された。
English
Recent advances in large language models (LLMs) enable agentic systems trained with reinforcement learning (RL) over multi-turn interaction trajectories, but practical deployment is bottlenecked by rapidly growing textual histories that inflate token budgets and memory usage. We introduce AgentOCR, a framework that exploits the superior information density of visual tokens by representing the accumulated observation-action history as a compact rendered image. To make multi-turn rollouts scalable, AgentOCR proposes segment optical caching. By decomposing history into hashable segments and maintaining a visual cache, this mechanism eliminates redundant re-rendering. Beyond fixed rendering, AgentOCR introduces agentic self-compression, where the agent actively emits a compression rate and is trained with compression-aware reward to adaptively balance task success and token efficiency. We conduct extensive experiments on challenging agentic benchmarks, ALFWorld and search-based QA. Remarkably, results demonstrate that AgentOCR preserves over 95\% of text-based agent performance while substantially reducing token consumption (>50\%), yielding consistent token and memory efficiency. Our further analysis validates a 20x rendering speedup from segment optical caching and the effective strategic balancing of self-compression.
PDF181January 13, 2026