MemOCR : Mémoire visuelle sensible à la mise en page pour un raisonnement efficace sur de longs horizons
MemOCR: Layout-Aware Visual Memory for Efficient Long-Horizon Reasoning
January 29, 2026
papers.authors: Yaorui Shi, Shugui Liu, Yu Yang, Wenyu Mao, Yuxin Chen, Qi GU, Hui Su, Xunliang Cai, Xiang Wang, An Zhang
cs.AI
papers.abstract
Le raisonnement agentique à long horizon nécessite une compression efficace d'historiques d'interaction croissants dans une fenêtre de contexte limitée. La plupart des systèmes de mémoire existants sérialisent l'historique sous forme de texte, où le coût au niveau des tokens est uniforme et augmente linéairement avec la longueur, gaspillant souvent le budget précieux sur des détails de faible valeur. Pour cela, nous présentons MemOCR, un agent de mémoire multimodal qui améliore le raisonnement à long horizon sous contrainte de contexte sévère en allouant l'espace mémoire avec une densité informationnelle adaptive via une mise en page visuelle. Concrètement, MemOCR maintient une mémoire structurée en texte enrichi (par exemple, titres, surlignages) et la convertit en image que l'agent consulte pour l'accès mémoire, en priorisant visuellement les preuves cruciales tout en compressant agressivement les détails auxiliaires. Pour garantir la robustesse face à différents budgets mémoire, nous entraînons MemOCR par apprentissage par renforcement avec des objectifs sensibles au budget qui exposent l'agent à divers niveaux de compression. Sur des benchmarks de questions-réponses multi-sauts et à saut unique à contexte long, MemOCR surpasse les solides bases de référence textuelles et atteint une utilisation de contexte plus efficace sous des budgets extrêmes.
English
Long-horizon agentic reasoning necessitates effectively compressing growing interaction histories into a limited context window. Most existing memory systems serialize history as text, where token-level cost is uniform and scales linearly with length, often spending scarce budget on low-value details. To this end, we introduce MemOCR, a multimodal memory agent that improves long-horizon reasoning under tight context budgets by allocating memory space with adaptive information density through visual layout. Concretely, MemOCR maintains a structured rich-text memory (e.g., headings, highlights) and renders it into an image that the agent consults for memory access, visually prioritizing crucial evidence while aggressively compressing auxiliary details. To ensure robustness across varying memory budgets, we train MemOCR with reinforcement learning under budget-aware objectives that expose the agent to diverse compression levels. Across long-context multi-hop and single-hop question-answering benchmarks, MemOCR outperforms strong text-based baselines and achieves more effective context utilization under extreme budgets.