ChatPaper.aiChatPaper

AgentOCR : Réinventer l'historique des agents par l'auto-compression optique

AgentOCR: Reimagining Agent History via Optical Self-Compression

January 8, 2026
papers.authors: Lang Feng, Fuchao Yang, Feng Chen, Xin Cheng, Haiyang Xu, Zhenglin Wan, Ming Yan, Bo An
cs.AI

papers.abstract

Les récents progrès des grands modèles de langage (LLM) permettent le développement de systèmes agentiques entraînés par apprentissage par renforcement (RL) sur des trajectoires d'interaction multi-tours, mais leur déploiement pratique est limité par la croissance rapide des historiques textuels qui gonflent les budgets de tokens et l'utilisation de la mémoire. Nous présentons AgentOCR, un cadre qui exploite la densité informationnelle supérieure des tokens visuels en représentant l'historique cumulé des observations-actions sous forme d'une image rendue compacte. Pour rendre les déploiements multi-tours évolutifs, AgentOCR propose la mise en cache optique par segments. En décomposant l'historique en segments hachables et en maintenant un cache visuel, ce mécanisme élimine le re-rendu redondant. Au-delà du rendu fixe, AgentOCR introduit l'auto-compression agentique, où l'agent émet activement un taux de compression et est entraîné avec une récompense sensible à la compression pour équilibrer de manière adaptive la réussite de la tâche et l'efficacité des tokens. Nous menons des expériences approfondies sur des benchmarks agentiques exigeants, ALFWorld et les questions-réponses basées sur la recherche. De manière remarquable, les résultats démontrent qu'AgentOCR préserve plus de 95 % des performances des agents basés sur le texte tout en réduisant substantiellement la consommation de tokens (>50 %), offrant ainsi une efficacité constante en tokens et en mémoire. Notre analyse approfondie valide une accélération du rendu de 20x grâce à la mise en cache optique par segments et l'équilibrage stratégique efficace de l'auto-compression.
English
Recent advances in large language models (LLMs) enable agentic systems trained with reinforcement learning (RL) over multi-turn interaction trajectories, but practical deployment is bottlenecked by rapidly growing textual histories that inflate token budgets and memory usage. We introduce AgentOCR, a framework that exploits the superior information density of visual tokens by representing the accumulated observation-action history as a compact rendered image. To make multi-turn rollouts scalable, AgentOCR proposes segment optical caching. By decomposing history into hashable segments and maintaining a visual cache, this mechanism eliminates redundant re-rendering. Beyond fixed rendering, AgentOCR introduces agentic self-compression, where the agent actively emits a compression rate and is trained with compression-aware reward to adaptively balance task success and token efficiency. We conduct extensive experiments on challenging agentic benchmarks, ALFWorld and search-based QA. Remarkably, results demonstrate that AgentOCR preserves over 95\% of text-based agent performance while substantially reducing token consumption (>50\%), yielding consistent token and memory efficiency. Our further analysis validates a 20x rendering speedup from segment optical caching and the effective strategic balancing of self-compression.
PDF181January 13, 2026