Un token por evidencia multimodal: Memoria latente para QA con recursos limitados

Resumen

La memoria externa fundamenta eficazmente los modelos de lenguaje grandes (LLMs) y los modelos de visión-lenguaje (VLMs) para la respuesta a preguntas (QA) basándose en evidencia multimodal relevante. Sin embargo, los paradigmas de memoria existentes representan cada elemento de memoria en formas de texto e imagen sin procesar, por lo que los sistemas basados en recuperación deben pasar los textos o imágenes recuperados a los LLMs/VLMs generativos, lo que resulta en un alto consumo de tokens y presión de almacenamiento, volviéndolos inasequibles para aplicaciones con recursos limitados. Proponemos Latent Memory, un paradigma de memoria en el espacio latente que reemplaza cada elemento de evidencia de texto o imagen sin procesar por un único token latente de alta dimensión producido por un pequeño LLM/VLM compresor. En lugar de recuperar evidencia sin procesar para la generación, Latent Memory opera en un espacio de representación latente unificado: la consulta se incrusta en este espacio para recuperar los tokens latentes relevantes, y los tokens latentes recuperados se introducen directamente como indicaciones a un LLM o VLM preentrenado para la generación de respuestas. Para que cada token latente sea simultáneamente informativo para la reconstrucción, recuperación y generación, entrenamos al compresor con objetivos de reconstrucción, contraste y destilación de manera unificada de extremo a extremo. Latent Memory se evalúa en siete conjuntos de prueba de QA solo de texto (p. ej., HotpotQA) y en conjuntos de prueba de QA multimodal, donde logra un rendimiento de QA competitivo en comparación con las líneas base avanzadas de RAG, mientras consume de 3 a 10 veces menos tokens del generador. También proporciona el rendimiento más sólido de QA fundamentado en imágenes en WebQA. El código está disponible en https://github.com/zz1358m/Latent-Memory-Master.

English

External memory effectively grounds large language models (LLMs) and vision-language models (VLMs)-based question answering (QA) in relevant multimodal evidence. However, existing memory paradigms represent each memory item in raw text and image forms, so retrieval-based systems must pass the retrieved text or images to the generation LLMs/VLMs, resulting in high token consumption and storage pressure, making it unaffordable for resource-constrained applications. We propose Latent Memory, a latent-space memory paradigm that replaces each raw text or image evidence item with a single high-dimensional latent token produced by a small compressor LLM/VLM. Rather than retrieving raw evidence for generation, Latent Memory operates in a unified latent representation space: the query is embedded into this space to retrieve relevant latent tokens, and the retrieved latent tokens are directly prompted to a pretrained LLM or VLM for answer generation. To make each latent token simultaneously informative for reconstruction, retrieval, and generation, we train the compressor with reconstruction, contrastive, and distillation objectives in a unified end-to-end manner. Latent Memory is evaluated on seven text-only QA benchmarks (e.g., HotpotQA) and multimodal QA benchmarks, where it achieves competitive QA performance compared to advanced RAG baselines while consuming 3x to 10x fewer generator tokens. It can also deliver the strongest image-grounded QA performance on WebQA. Code is available at https://github.com/zz1358m/Latent-Memory-Master.