MemOCR: Layout-bewust visueel geheugen voor efficiënte redenering over lange horizonnen
MemOCR: Layout-Aware Visual Memory for Efficient Long-Horizon Reasoning
January 29, 2026
Auteurs: Yaorui Shi, Shugui Liu, Yu Yang, Wenyu Mao, Yuxin Chen, Qi GU, Hui Su, Xunliang Cai, Xiang Wang, An Zhang
cs.AI
Samenvatting
Langetermijn-agentisch redeneren vereist een effectieve compressie van groeiende interactiegeschiedenissen in een beperkte contextvensterruimte. De meeste bestaande geheugensystemen serialiseren geschiedenis als tekst, waarbij de token-kosten uniform zijn en lineair schalen met de lengte, waardoor vaak een schaars budget aan weinig waardevolle details wordt besteed. Daarom introduceren wij MemOCR, een multimodale geheugenagent die het langetermijnredeneren onder strikte contextbudgetten verbetert door geheugenruimte toe te wijzen met adaptieve informatiedichtheid via visuele lay-out. Concreet onderhoudt MemOCR een gestructureerd rich-text-geheugen (bijv. met kopteksten, markeringen) en rendert dit naar een afbeelding die de agent raadpleegt voor geheugentoegang, waarbij visueel cruciaal bewijsmateriaal wordt geprioriteerd en ondersteunende details agressief worden gecomprimeerd. Om robuustheid bij variërende geheugenbudgetten te garanderen, trainen wij MemOCR met reinforcement learning onder budgetbewuste doelstellingen die de agent blootstellen aan diverse compressieniveaus. Op langcontext-meerstaps- en enkelstaps vraag-antwoordbenchmarks overtreft MemOCR sterke tekstgebaseerde systemen en bereikt het effectievere contextbenutting onder extreme budgetten.
English
Long-horizon agentic reasoning necessitates effectively compressing growing interaction histories into a limited context window. Most existing memory systems serialize history as text, where token-level cost is uniform and scales linearly with length, often spending scarce budget on low-value details. To this end, we introduce MemOCR, a multimodal memory agent that improves long-horizon reasoning under tight context budgets by allocating memory space with adaptive information density through visual layout. Concretely, MemOCR maintains a structured rich-text memory (e.g., headings, highlights) and renders it into an image that the agent consults for memory access, visually prioritizing crucial evidence while aggressively compressing auxiliary details. To ensure robustness across varying memory budgets, we train MemOCR with reinforcement learning under budget-aware objectives that expose the agent to diverse compression levels. Across long-context multi-hop and single-hop question-answering benchmarks, MemOCR outperforms strong text-based baselines and achieves more effective context utilization under extreme budgets.