MemOCR: Memória Visual com Consciência de Layout para Raciocínio Eficiente de Longo Horizonte

Resumo

O raciocínio de agentes de longo horizonte requer a compressão eficaz de históricos de interação crescentes em uma janela de contexto limitada. A maioria dos sistemas de memória existentes serializa o histórico como texto, onde o custo por token é uniforme e escala linearmente com o comprimento, frequentemente gastando o orçamento escasso em detalhes de baixo valor. Para tal, apresentamos o MemOCR, um agente de memória multimodal que melhora o raciocínio de longo horizonte sob orçamentos de contexto restritos, alocando espaço de memória com densidade de informação adaptativa através de layout visual. Concretamente, o MemOCR mantém uma memória estruturada em rich-text (por exemplo, títulos, destaques) e a renderiza numa imagem que o agente consulta para acesso à memória, priorizando visualmente evidências cruciais enquanto comprime agressivamente detalhes auxiliares. Para garantir robustez em diferentes orçamentos de memória, treinamos o MemOCR com aprendizagem por reforço sob objetivos conscientes do orçamento que expõem o agente a diversos níveis de compressão. Em benchmarks de resposta a perguntas multi-hop e single-hop de longo contexto, o MemOCR supera baselines baseados em texto e alcança uma utilização de contexto mais eficaz sob orçamentos extremos.

English

Long-horizon agentic reasoning necessitates effectively compressing growing interaction histories into a limited context window. Most existing memory systems serialize history as text, where token-level cost is uniform and scales linearly with length, often spending scarce budget on low-value details. To this end, we introduce MemOCR, a multimodal memory agent that improves long-horizon reasoning under tight context budgets by allocating memory space with adaptive information density through visual layout. Concretely, MemOCR maintains a structured rich-text memory (e.g., headings, highlights) and renders it into an image that the agent consults for memory access, visually prioritizing crucial evidence while aggressively compressing auxiliary details. To ensure robustness across varying memory budgets, we train MemOCR with reinforcement learning under budget-aware objectives that expose the agent to diverse compression levels. Across long-context multi-hop and single-hop question-answering benchmarks, MemOCR outperforms strong text-based baselines and achieves more effective context utilization under extreme budgets.

MemOCR: Memória Visual com Consciência de Layout para Raciocínio Eficiente de Longo Horizonte

MemOCR: Layout-Aware Visual Memory for Efficient Long-Horizon Reasoning

Resumo

Support