ChatPaper.aiChatPaper

MemOCR: Memoria Visual Consciente del Diseño para un Razonamiento Eficiente de Largo Horizonte

MemOCR: Layout-Aware Visual Memory for Efficient Long-Horizon Reasoning

January 29, 2026
Autores: Yaorui Shi, Shugui Liu, Yu Yang, Wenyu Mao, Yuxin Chen, Qi GU, Hui Su, Xunliang Cai, Xiang Wang, An Zhang
cs.AI

Resumen

El razonamiento agente de horizonte largo requiere comprimir eficazmente historiales de interacción crecientes en una ventana de contexto limitada. La mayoría de los sistemas de memoria existentes serializan el historial como texto, donde el costo a nivel de token es uniforme y escala linealmente con la longitud, gastando a menudo un presupuesto escaso en detalles de bajo valor. Para ello, presentamos MemOCR, un agente de memoria multimodal que mejora el razonamiento de horizonte largo bajo presupuestos de contexto ajustados, mediante la asignación de espacio de memoria con densidad de información adaptativa a través de diseño visual. Concretamente, MemOCR mantiene una memoria estructurada de texto enriquecido (por ejemplo, encabezados, resaltados) y la renderiza en una imagen que el agente consulta para el acceso a la memoria, priorizando visualmente la evidencia crucial mientras comprime agresivamente los detalles auxiliares. Para garantizar robustez frente a diversos presupuestos de memoria, entrenamos MemOCR con aprendizaje por refuerzo bajo objetivos conscientes del presupuesto que exponen al agente a distintos niveles de compresión. En benchmarks de respuesta a preguntas de múltiples saltos y de un solo salto con contexto largo, MemOCR supera a sólidas líneas base basadas en texto y logra una utilización del contexto más efectiva bajo presupuestos extremos.
English
Long-horizon agentic reasoning necessitates effectively compressing growing interaction histories into a limited context window. Most existing memory systems serialize history as text, where token-level cost is uniform and scales linearly with length, often spending scarce budget on low-value details. To this end, we introduce MemOCR, a multimodal memory agent that improves long-horizon reasoning under tight context budgets by allocating memory space with adaptive information density through visual layout. Concretely, MemOCR maintains a structured rich-text memory (e.g., headings, highlights) and renders it into an image that the agent consults for memory access, visually prioritizing crucial evidence while aggressively compressing auxiliary details. To ensure robustness across varying memory budgets, we train MemOCR with reinforcement learning under budget-aware objectives that expose the agent to diverse compression levels. Across long-context multi-hop and single-hop question-answering benchmarks, MemOCR outperforms strong text-based baselines and achieves more effective context utilization under extreme budgets.
PDF82February 3, 2026