MemOCR: 効率的な長文脈推論のためのレイアウト認識視覚メモリ
MemOCR: Layout-Aware Visual Memory for Efficient Long-Horizon Reasoning
January 29, 2026
著者: Yaorui Shi, Shugui Liu, Yu Yang, Wenyu Mao, Yuxin Chen, Qi GU, Hui Su, Xunliang Cai, Xiang Wang, An Zhang
cs.AI
要旨
長期的なエージェント推論では、増大する対話履歴を限られたコンテキストウィンドウ内に効果的に圧縮する必要がある。既存のメモリシステムの多くは履歴をテキストとして直列化するが、トークン単位のコストが均一で長さに比例して増加するため、貴重な予算が低価値な詳細に費やされがちである。この課題に対し、我々は視覚的レイアウトを通じて情報密度を適応的に調整し、厳しいコンテキスト制約下での長期的推論を改善するマルチモーダルメモリエージェント「MemOCR」を提案する。具体的には、MemOCRは構造化されたリッチテキストメモリ(見出しや強調表示など)を維持し、それを画像としてレンダリングしてエージェントが参照する。これにより、重要な証拠を視覚的に優先しつつ、補助的詳細を積極的に圧縮する。様々なメモリ予算への頑健性を確保するため、強化学習を用いてエージェントを多様な圧縮レベルに曝す予算考慮型目標でMemOCRを訓練する。長文脈マルチホップおよびシングルホップ質問応答ベンチマークにおいて、MemOCRは強力なテキストベースラインを上回り、極端な予算制約下でもより効果的なコンテキスト利用を実現した。
English
Long-horizon agentic reasoning necessitates effectively compressing growing interaction histories into a limited context window. Most existing memory systems serialize history as text, where token-level cost is uniform and scales linearly with length, often spending scarce budget on low-value details. To this end, we introduce MemOCR, a multimodal memory agent that improves long-horizon reasoning under tight context budgets by allocating memory space with adaptive information density through visual layout. Concretely, MemOCR maintains a structured rich-text memory (e.g., headings, highlights) and renders it into an image that the agent consults for memory access, visually prioritizing crucial evidence while aggressively compressing auxiliary details. To ensure robustness across varying memory budgets, we train MemOCR with reinforcement learning under budget-aware objectives that expose the agent to diverse compression levels. Across long-context multi-hop and single-hop question-answering benchmarks, MemOCR outperforms strong text-based baselines and achieves more effective context utilization under extreme budgets.