MemOCR: Layout-bewusster visueller Speicher für effizientes Langzeitschlussfolgern
MemOCR: Layout-Aware Visual Memory for Efficient Long-Horizon Reasoning
January 29, 2026
papers.authors: Yaorui Shi, Shugui Liu, Yu Yang, Wenyu Mao, Yuxin Chen, Qi GU, Hui Su, Xunliang Cai, Xiang Wang, An Zhang
cs.AI
papers.abstract
Langfristiges agentenbasiertes Denken erfordert eine effektive Komprimierung wachsender Interaktionsverläufe in ein begrenztes Kontextfenster. Die meisten bestehenden Gedächtnissysteme serialisieren Verläufe als Text, bei dem die Token-Kosten einheitlich sind und linear mit der Länge skalieren, wodurch oft knappes Budget für unwesentliche Details aufgewendet wird. Daher stellen wir MemOCR vor, einen multimodalen Gedächtnisagenten, der das langfristige Denken unter strengen Kontextbudgets verbessert, indem er Speicherplatz durch visuelle Darstellung mit adaptiver Informationsdichte zuweist. Konkret verwaltet MemOCR einen strukturierten Rich-Text-Speicher (z.B. mit Überschriften, Hervorhebungen) und rendert diesen in ein Bild, das der Agent zum Speicherzugriff konsultiert, wobei visuell entscheidende Beweise priorisiert und nebensächliche Details aggressiv komprimiert werden. Um Robustheit über verschiedene Speicherbudgets hinweg zu gewährleisten, trainieren wir MemOCR mit bestärkendem Lernen unter budgetbewussten Zielvorgaben, die den Agenten unterschiedlichen Komprimierungsstufen aussetzen. In Benchmarks für mehrstufige und einstufige Frage-Antwort-Aufgaben mit langem Kontext übertrifft MemOCR starke textbasierte Baseline-Modelle und erreicht eine effektivere Kontextnutzung unter extremen Budgetbeschränkungen.
English
Long-horizon agentic reasoning necessitates effectively compressing growing interaction histories into a limited context window. Most existing memory systems serialize history as text, where token-level cost is uniform and scales linearly with length, often spending scarce budget on low-value details. To this end, we introduce MemOCR, a multimodal memory agent that improves long-horizon reasoning under tight context budgets by allocating memory space with adaptive information density through visual layout. Concretely, MemOCR maintains a structured rich-text memory (e.g., headings, highlights) and renders it into an image that the agent consults for memory access, visually prioritizing crucial evidence while aggressively compressing auxiliary details. To ensure robustness across varying memory budgets, we train MemOCR with reinforcement learning under budget-aware objectives that expose the agent to diverse compression levels. Across long-context multi-hop and single-hop question-answering benchmarks, MemOCR outperforms strong text-based baselines and achieves more effective context utilization under extreme budgets.