Eén token per multimodaal bewijs: Latent geheugen voor resource-beperkte vraagbeantwoording

Samenvatting

Extern geheugen fundeert effectief vraagbeantwoording (QA) op basis van grote taalmodellen (LLMs) en visie-taalmodellen (VLMs) in relevant multimodaal bewijsmateriaal. Echter, bestaande geheugenparadigma's representeren elk geheugenitem in onbewerkte tekst- en beeldvormen, waardoor op terugvinden gebaseerde systemen de teruggevonden tekst of beelden moeten doorgeven aan de genererende LLMs/VLMs, wat resulteert in hoog tokenverbruik en opslagdruk, waardoor het onbetaalbaar wordt voor toepassingen met beperkte middelen. We stellen Latent Memory voor, een geheugenparadigma in latente ruimte dat elk onbewerkt tekst- of beeldbewijsitem vervangt door een enkele hoogdimensionale latente token, geproduceerd door een kleine compressor LLM/VLM. In plaats van onbewerkt bewijsmateriaal op te halen voor generatie, werkt Latent Memory in een uniforme latente representatieruimte: de query wordt in deze ruimte ingebed om relevante latente tokens terug te vinden, en de teruggevonden latente tokens worden direct als prompt gegeven aan een voorgetraind LLM of VLM voor antwoordgeneratie. Om elke latente token tegelijkertijd informatief te maken voor reconstructie, terugvinden en generatie, trainen we de compressor met reconstructie-, contrastieve en distillatiedoelen op een uniforme end-to-end manier. Latent Memory wordt geëvalueerd op zeven tekst-only QA-benchmarks (bijv. HotpotQA) en multimodale QA-benchmarks, waar het concurrerende QA-prestaties behaalt in vergelijking met geavanceerde RAG-baselines, terwijl het 3x tot 10x minder generatortokens verbruikt. Het kan ook de sterkste op beeld gebaseerde QA-prestaties leveren op WebQA. Code is beschikbaar op https://github.com/zz1358m/Latent-Memory-Master.

English

External memory effectively grounds large language models (LLMs) and vision-language models (VLMs)-based question answering (QA) in relevant multimodal evidence. However, existing memory paradigms represent each memory item in raw text and image forms, so retrieval-based systems must pass the retrieved text or images to the generation LLMs/VLMs, resulting in high token consumption and storage pressure, making it unaffordable for resource-constrained applications. We propose Latent Memory, a latent-space memory paradigm that replaces each raw text or image evidence item with a single high-dimensional latent token produced by a small compressor LLM/VLM. Rather than retrieving raw evidence for generation, Latent Memory operates in a unified latent representation space: the query is embedded into this space to retrieve relevant latent tokens, and the retrieved latent tokens are directly prompted to a pretrained LLM or VLM for answer generation. To make each latent token simultaneously informative for reconstruction, retrieval, and generation, we train the compressor with reconstruction, contrastive, and distillation objectives in a unified end-to-end manner. Latent Memory is evaluated on seven text-only QA benchmarks (e.g., HotpotQA) and multimodal QA benchmarks, where it achieves competitive QA performance compared to advanced RAG baselines while consuming 3x to 10x fewer generator tokens. It can also deliver the strongest image-grounded QA performance on WebQA. Code is available at https://github.com/zz1358m/Latent-Memory-Master.