Um Token por Evidência Multimodal: Memória Latente para Pergunta-Resposta com Recursos Limitados

Resumo

Memória externa fundamenta eficazmente modelos de linguagem grandes (LLMs) e modelos de visão-linguagem (VLMs) baseados em resposta a perguntas (QA) em evidências multimodais relevantes. No entanto, paradigmas de memória existentes representam cada item de memória em formas brutas de texto e imagem, de modo que sistemas baseados em recuperação devem passar os textos ou imagens recuperados para os LLMs/VLMs geradores, resultando em alto consumo de tokens e pressão de armazenamento, tornando-os inviáveis para aplicações com recursos limitados. Propomos Memória Latente, um paradigma de memória no espaço latente que substitui cada item de evidência de texto ou imagem bruta por um único token latente de alta dimensionalidade produzido por um pequeno LLM/VLM compressor. Em vez de recuperar evidências brutas para a geração, a Memória Latente opera em um espaço de representação latente unificado: a consulta é incorporada nesse espaço para recuperar tokens latentes relevantes, e os tokens latentes recuperados são diretamente fornecidos como prompt a um LLM ou VLM pré-treinado para geração de respostas. Para que cada token latente seja simultaneamente informativo para reconstrução, recuperação e geração, treinamos o compressor com objetivos de reconstrução, contraste e destilação de forma unificada e de ponta a ponta. A Memória Latente é avaliada em sete referenciais de QA apenas com texto (ex.: HotpotQA) e em referenciais de QA multimodal, onde alcança desempenho competitivo em QA em comparação com linhas de base avançadas de RAG, enquanto consome de 3x a 10x menos tokens do gerador. Também entrega o melhor desempenho de QA fundamentado em imagens no WebQA. O código está disponível em https://github.com/zz1358m/Latent-Memory-Master.

English

External memory effectively grounds large language models (LLMs) and vision-language models (VLMs)-based question answering (QA) in relevant multimodal evidence. However, existing memory paradigms represent each memory item in raw text and image forms, so retrieval-based systems must pass the retrieved text or images to the generation LLMs/VLMs, resulting in high token consumption and storage pressure, making it unaffordable for resource-constrained applications. We propose Latent Memory, a latent-space memory paradigm that replaces each raw text or image evidence item with a single high-dimensional latent token produced by a small compressor LLM/VLM. Rather than retrieving raw evidence for generation, Latent Memory operates in a unified latent representation space: the query is embedded into this space to retrieve relevant latent tokens, and the retrieved latent tokens are directly prompted to a pretrained LLM or VLM for answer generation. To make each latent token simultaneously informative for reconstruction, retrieval, and generation, we train the compressor with reconstruction, contrastive, and distillation objectives in a unified end-to-end manner. Latent Memory is evaluated on seven text-only QA benchmarks (e.g., HotpotQA) and multimodal QA benchmarks, where it achieves competitive QA performance compared to advanced RAG baselines while consuming 3x to 10x fewer generator tokens. It can also deliver the strongest image-grounded QA performance on WebQA. Code is available at https://github.com/zz1358m/Latent-Memory-Master.