MemOCR: 효율적인 장기 추론을 위한 레이아웃 인식 시각 메모리
MemOCR: Layout-Aware Visual Memory for Efficient Long-Horizon Reasoning
January 29, 2026
저자: Yaorui Shi, Shugui Liu, Yu Yang, Wenyu Mao, Yuxin Chen, Qi GU, Hui Su, Xunliang Cai, Xiang Wang, An Zhang
cs.AI
초록
장기적 행동 추론은 점차 증가하는 상호작용 기록을 제한된 컨텍스트 윈도우에 효과적으로 압축하는 것을 필요로 합니다. 기존 대부분의 메모리 시스템은 역사를 텍스트로 직렬화하는데, 여기서 토큰 수준의 비용은 균일하며 길이에 따라 선형적으로 증가하여 흔히 부족한 예산을 낮은 가치의 세부 사항에 소모합니다. 이를 위해 우리는 시각적 레이아웃을 통해 적응형 정보 밀도로 메모리 공간을 할당함으로써 제한된 컨텍스트 예산 하에서 장기적 추론을 개선하는 다중 모달 메모리 에이전트인 MemOCR을 소개합니다. 구체적으로 MemOCR은 구조화된 서식 텍스트 메모리(예: 제목, 강조 표시)를 유지하고 이를 에이전트가 메모리 접근 시 참조하는 이미지로 렌더링하여 중요한 증거는 시각적으로 우선시하는 동시에 보조 세부 사항은 공격적으로 압축합니다. 다양한 메모리 예산에서 견고성을 보장하기 위해, 우리는 에이전트가 다양한 압축 수준에 노출되도록 예산 인식 목표 하에서 강화 학습으로 MemOCR을 훈련합니다. 장문 맥락 다중 홉 및 단일 홉 질의응답 벤치마크에서 MemOCR은 강력한 텍스트 기반 기준선을 능가하며 극한의 예산 조건에서 더 효과적인 컨텍스트 활용을 달성합니다.
English
Long-horizon agentic reasoning necessitates effectively compressing growing interaction histories into a limited context window. Most existing memory systems serialize history as text, where token-level cost is uniform and scales linearly with length, often spending scarce budget on low-value details. To this end, we introduce MemOCR, a multimodal memory agent that improves long-horizon reasoning under tight context budgets by allocating memory space with adaptive information density through visual layout. Concretely, MemOCR maintains a structured rich-text memory (e.g., headings, highlights) and renders it into an image that the agent consults for memory access, visually prioritizing crucial evidence while aggressively compressing auxiliary details. To ensure robustness across varying memory budgets, we train MemOCR with reinforcement learning under budget-aware objectives that expose the agent to diverse compression levels. Across long-context multi-hop and single-hop question-answering benchmarks, MemOCR outperforms strong text-based baselines and achieves more effective context utilization under extreme budgets.