MemOCR: Memoria Visiva Consapevole del Layout per un Ragionamento Efficiente a Lungo Termine
MemOCR: Layout-Aware Visual Memory for Efficient Long-Horizon Reasoning
January 29, 2026
Autori: Yaorui Shi, Shugui Liu, Yu Yang, Wenyu Mao, Yuxin Chen, Qi GU, Hui Su, Xunliang Cai, Xiang Wang, An Zhang
cs.AI
Abstract
Il ragionamento agente a lungo termine richiede una compressione efficace delle storie d'interazione crescenti in una finestra di contesto limitata. La maggior parte dei sistemi di memoria esistenti serializza la cronologia come testo, dove il costo a livello di token è uniforme e scala linearmente con la lunghezza, spendendo spesso il budget limitato su dettagli di scarso valore. A tal fine, introduciamo MemOCR, un agente di memoria multimodale che migliora il ragionamento a lungo termine con budget di contesto ristretti allocando lo spazio di memoria con densità informativa adattiva attraverso layout visivo. Nello specifico, MemOCR mantiene una memoria strutturata in rich-text (ad es. intestazioni, evidenziazioni) e la renderizza in un'immagine che l'agente consulta per l'accesso alla memoria, dando priorità visiva alle evidenze cruciale comprimendo aggressivamente i dettagli ausiliari. Per garantire robustezza con budget di memoria variabili, addestriamo MemOCR con apprendimento per rinforzo sotto obiettivi budget-aware che espongono l'agente a diversi livelli di compressione. Su benchmark di question-answering multi-hop e single-hop a contesto lungo, MemOCR supera solidi baseline testuali e raggiunge un utilizzo del contesto più efficace sotto budget estremi.
English
Long-horizon agentic reasoning necessitates effectively compressing growing interaction histories into a limited context window. Most existing memory systems serialize history as text, where token-level cost is uniform and scales linearly with length, often spending scarce budget on low-value details. To this end, we introduce MemOCR, a multimodal memory agent that improves long-horizon reasoning under tight context budgets by allocating memory space with adaptive information density through visual layout. Concretely, MemOCR maintains a structured rich-text memory (e.g., headings, highlights) and renders it into an image that the agent consults for memory access, visually prioritizing crucial evidence while aggressively compressing auxiliary details. To ensure robustness across varying memory budgets, we train MemOCR with reinforcement learning under budget-aware objectives that expose the agent to diverse compression levels. Across long-context multi-hop and single-hop question-answering benchmarks, MemOCR outperforms strong text-based baselines and achieves more effective context utilization under extreme budgets.