AgentOCR: Reimaginando la Historia de los Agentes mediante la Autocompresión Óptica
AgentOCR: Reimagining Agent History via Optical Self-Compression
January 8, 2026
Autores: Lang Feng, Fuchao Yang, Feng Chen, Xin Cheng, Haiyang Xu, Zhenglin Wan, Ming Yan, Bo An
cs.AI
Resumen
Los recientes avances en los modelos de lenguaje extensos (LLM) permiten sistemas agentes entrenados con aprendizaje por refuerzo (RL) sobre trayectorias de interacción multiturno, pero el despliegue práctico encuentra un cuello de botella en el rápido crecimiento de los historiales textuales, que inflan los presupuestos de tokens y el uso de memoria. Presentamos AgentOCR, un marco que explota la densidad de información superior de los tokens visuales representando el historial acumulado de observación-acción como una imagen renderizada compacta. Para hacer escalables los despliegues multiturno, AgentOCR propone el almacenamiento en caché óptico por segmentos. Al descomponer el historial en segmentos hasheables y mantener una caché visual, este mecanismo elimina el re-renderizado redundante. Más allá del renderizado fijo, AgentOCR introduce la auto-compresión agentica, donde el agente emite activamente una tasa de compresión y es entrenado con una recompensa consciente de la compresión para equilibrar de manera adaptativa el éxito de la tarea y la eficiencia de tokens. Realizamos extensos experimentos en benchmarks agentes desafiantes, ALFWorld y preguntas y respuestas basadas en búsqueda. Notablemente, los resultados demuestran que AgentOCR preserva más del 95% del rendimiento del agente basado en texto, mientras reduce sustancialmente el consumo de tokens (>50%), logrando una eficiencia consistente en tokens y memoria. Nuestro análisis adicional valida una aceleración de 20x en el renderizado gracias al almacenamiento en caché óptico por segmentos y el equilibrio estratégico efectivo de la auto-compresión.
English
Recent advances in large language models (LLMs) enable agentic systems trained with reinforcement learning (RL) over multi-turn interaction trajectories, but practical deployment is bottlenecked by rapidly growing textual histories that inflate token budgets and memory usage. We introduce AgentOCR, a framework that exploits the superior information density of visual tokens by representing the accumulated observation-action history as a compact rendered image. To make multi-turn rollouts scalable, AgentOCR proposes segment optical caching. By decomposing history into hashable segments and maintaining a visual cache, this mechanism eliminates redundant re-rendering. Beyond fixed rendering, AgentOCR introduces agentic self-compression, where the agent actively emits a compression rate and is trained with compression-aware reward to adaptively balance task success and token efficiency. We conduct extensive experiments on challenging agentic benchmarks, ALFWorld and search-based QA. Remarkably, results demonstrate that AgentOCR preserves over 95\% of text-based agent performance while substantially reducing token consumption (>50\%), yielding consistent token and memory efficiency. Our further analysis validates a 20x rendering speedup from segment optical caching and the effective strategic balancing of self-compression.