ChatPaper.aiChatPaper

AgentOCR: Переосмысление истории агентов с помощью оптического самосжатия

AgentOCR: Reimagining Agent History via Optical Self-Compression

January 8, 2026
Авторы: Lang Feng, Fuchao Yang, Feng Chen, Xin Cheng, Haiyang Xu, Zhenglin Wan, Ming Yan, Bo An
cs.AI

Аннотация

Последние достижения в области больших языковых моделей (LLMs) позволяют создавать агентные системы, обученные с подкреплением (RL) на траекториях многошагового взаимодействия, однако практическое развертывание ограничивается быстро растущими текстовыми историями, которые увеличивают токенные бюджеты и объем используемой памяти. Мы представляем AgentOCR — фреймворк, который использует превосходную информационную плотность визуальных токенов, представляя накопленную историю наблюдений и действий в виде компактного визуализированного изображения. Для обеспечения масштабируемости многошаговых сценариев AgentOCR предлагает сегментное оптическое кэширование. Разлагая историю на хэшируемые сегменты и поддерживая визуальный кэш, этот механизм устраняет избыточное повторное рендеринг. Помимо фиксированного рендеринга, AgentOCR вводит агентное самосжатие, при котором агент активно генерирует коэффициент сжатия и обучается с учетом сжатия в функции вознаграждения для адаптивного баланса между успешностью задачи и токенной эффективностью. Мы провели обширные эксперименты на сложных агентных бенчмарках ALFWorld и поисковых QA. Примечательно, что результаты показывают, что AgentOCR сохраняет более 95% производительности текстового агента при существенном сокращении потребления токенов (>50%), обеспечивая стабильную эффективность по токенам и памяти. Наш дальнейший анализ подтверждает 20-кратное ускорение рендеринга благодаря сегментному оптическому кэшированию и эффективное стратегическое балансирование самосжатия.
English
Recent advances in large language models (LLMs) enable agentic systems trained with reinforcement learning (RL) over multi-turn interaction trajectories, but practical deployment is bottlenecked by rapidly growing textual histories that inflate token budgets and memory usage. We introduce AgentOCR, a framework that exploits the superior information density of visual tokens by representing the accumulated observation-action history as a compact rendered image. To make multi-turn rollouts scalable, AgentOCR proposes segment optical caching. By decomposing history into hashable segments and maintaining a visual cache, this mechanism eliminates redundant re-rendering. Beyond fixed rendering, AgentOCR introduces agentic self-compression, where the agent actively emits a compression rate and is trained with compression-aware reward to adaptively balance task success and token efficiency. We conduct extensive experiments on challenging agentic benchmarks, ALFWorld and search-based QA. Remarkably, results demonstrate that AgentOCR preserves over 95\% of text-based agent performance while substantially reducing token consumption (>50\%), yielding consistent token and memory efficiency. Our further analysis validates a 20x rendering speedup from segment optical caching and the effective strategic balancing of self-compression.
PDF181January 13, 2026