Ein Token pro multimodaler Evidenz: Latenter Speicher für ressourcenbeschränkte QA

Zusammenfassung

Externer Speicher verankert effektiv die auf großen Sprachmodellen (LLMs) und Bild-Sprach-Modellen (VLMs) basierende Fragebeantwortung (QA) in relevanter multimodaler Evidenz. Allerdings stellen bestehende Speicherparadigmen jedes Speicherelement in Form von Rohtext und -bildern dar, sodass retrievalbasierte Systeme die abgerufenen Texte oder Bilder an die Generierungs-LLMs/VLMs weiterleiten müssen, was zu hohem Tokenverbrauch und Speicherdruck führt und es für ressourcenbeschränkte Anwendungen unerschwinglich macht. Wir schlagen Latent Memory vor, ein Speicherparadigma im latenten Raum, das jedes rohe Text- oder Bildbeweiselement durch einen einzigen hochdimensionalen latenten Token ersetzt, der von einem kleinen Kompressor-LLM/VLM erzeugt wird. Anstatt rohe Evidenz zur Generierung abzurufen, operiert Latent Memory in einem einheitlichen latenten Darstellungsraum: Die Anfrage wird in diesen Raum eingebettet, um relevante latente Token abzurufen, und die abgerufenen latenten Token werden direkt einem vortrainierten LLM oder VLM als Prompt für die Antwortgenerierung übergeben. Um jeden latenten Token gleichzeitig informationsreich für Rekonstruktion, Abruf und Generierung zu machen, trainieren wir den Kompressor mit Rekonstruktions-, Kontrastiv- und Destillationszielen in einem einheitlichen End-to-End-Verfahren. Latent Memory wird an sieben rein textbasierten QA-Benchmarks (z. B. HotpotQA) und multimodalen QA-Benchmarks evaluiert, wo es im Vergleich zu fortgeschrittenen RAG-Baselines eine wettbewerbsfähige QA-Leistung erzielt, während es drei- bis zehnmal weniger Generierungstoken verbraucht. Es liefert zudem die stärkste bildgestützte QA-Leistung auf WebQA. Der Code ist verfügbar unter https://github.com/zz1358m/Latent-Memory-Master.

English

External memory effectively grounds large language models (LLMs) and vision-language models (VLMs)-based question answering (QA) in relevant multimodal evidence. However, existing memory paradigms represent each memory item in raw text and image forms, so retrieval-based systems must pass the retrieved text or images to the generation LLMs/VLMs, resulting in high token consumption and storage pressure, making it unaffordable for resource-constrained applications. We propose Latent Memory, a latent-space memory paradigm that replaces each raw text or image evidence item with a single high-dimensional latent token produced by a small compressor LLM/VLM. Rather than retrieving raw evidence for generation, Latent Memory operates in a unified latent representation space: the query is embedded into this space to retrieve relevant latent tokens, and the retrieved latent tokens are directly prompted to a pretrained LLM or VLM for answer generation. To make each latent token simultaneously informative for reconstruction, retrieval, and generation, we train the compressor with reconstruction, contrastive, and distillation objectives in a unified end-to-end manner. Latent Memory is evaluated on seven text-only QA benchmarks (e.g., HotpotQA) and multimodal QA benchmarks, where it achieves competitive QA performance compared to advanced RAG baselines while consuming 3x to 10x fewer generator tokens. It can also deliver the strongest image-grounded QA performance on WebQA. Code is available at https://github.com/zz1358m/Latent-Memory-Master.