ChatPaper.aiChatPaper

MemOCR: Визуальная память с учетом компоновки для эффективного рассуждения на длинных горизонтах

MemOCR: Layout-Aware Visual Memory for Efficient Long-Horizon Reasoning

January 29, 2026
Авторы: Yaorui Shi, Shugui Liu, Yu Yang, Wenyu Mao, Yuxin Chen, Qi GU, Hui Su, Xunliang Cai, Xiang Wang, An Zhang
cs.AI

Аннотация

Долгосрочное агентное рассуждение требует эффективного сжатия растущей истории взаимодействий в ограниченное окно контекста. Большинство существующих систем памяти сериализуют историю в виде текста, где стоимость на уровне токенов является единообразной и масштабируется линейно с длиной, зачастую расходуя ограниченный бюджет на маловажные детали. В связи с этим мы представляем MemOCR, многомодального агента памяти, который улучшает долгосрочное рассуждение в условиях жёстких бюджетов контекста за счёт распределения пространства памяти с адаптивной плотностью информации посредством визуального макета. Конкретно, MemOCR поддерживает структурированную память в формате богатого текста (например, с заголовками, выделениями) и визуализирует её в виде изображения, которое агент использует для доступа к памяти, визуально расставляя приоритеты для ключевых доказательств при агрессивном сжатии вспомогательных деталей. Для обеспечения устойчивости к различным бюджетам памяти мы обучаем MemOCR с помощью обучения с подкреплением на основе целевых функций, учитывающих бюджет, что подвергает агента воздействию различных уровней сжатия. На наборах данных для многозвенного и однозвенного вопросно-ответного моделирования с длинным контекстом MemOCR превосходит сильные текстовые базовые модели и демонстрирует более эффективное использование контекста в условиях экстремально малых бюджетов.
English
Long-horizon agentic reasoning necessitates effectively compressing growing interaction histories into a limited context window. Most existing memory systems serialize history as text, where token-level cost is uniform and scales linearly with length, often spending scarce budget on low-value details. To this end, we introduce MemOCR, a multimodal memory agent that improves long-horizon reasoning under tight context budgets by allocating memory space with adaptive information density through visual layout. Concretely, MemOCR maintains a structured rich-text memory (e.g., headings, highlights) and renders it into an image that the agent consults for memory access, visually prioritizing crucial evidence while aggressively compressing auxiliary details. To ensure robustness across varying memory budgets, we train MemOCR with reinforcement learning under budget-aware objectives that expose the agent to diverse compression levels. Across long-context multi-hop and single-hop question-answering benchmarks, MemOCR outperforms strong text-based baselines and achieves more effective context utilization under extreme budgets.
PDF82February 3, 2026