Un token par preuve multimodale : Mémoire latente pour le QA sous contrainte de ressources

Résumé

La mémoire externe ancre efficacement la réponse à des questions (QA) basée sur les grands modèles de langage (LLM) et les modèles vision-langage (VLM) dans des preuves multimodales pertinentes. Cependant, les paradigmes de mémoire existants représentent chaque élément mémorisé sous forme de texte brut et d’images, ce qui oblige les systèmes basés sur le rappel à transmettre le texte ou les images récupérés aux LLM/VLM de génération, entraînant une consommation élevée de jetons et une pression de stockage, les rendant inabordables pour les applications à ressources limitées. Nous proposons Latent Memory, un paradigme de mémoire dans l’espace latent qui remplace chaque preuve textuelle ou image brute par un unique jeton latent de haute dimension produit par un petit compresseur LLM/VLM. Plutôt que de récupérer des preuves brutes pour la génération, Latent Memory opère dans un espace de représentation latent unifié : la requête est plongée dans cet espace pour récupérer les jetons latents pertinents, et ces derniers sont directement utilisés comme prompt pour un LLM ou VLM pré-entraîné en vue de générer la réponse. Pour que chaque jeton latent soit simultanément informatif pour la reconstruction, le rappel et la génération, nous entraînons le compresseur avec des objectifs de reconstruction, contrastif et de distillation de manière unifiée de bout en bout. Latent Memory est évalué sur sept références de QA purement textuelles (par exemple HotpotQA) et des références de QA multimodales, où il atteint des performances compétitives en QA par rapport aux bases de référence RAG avancées tout en consommant 3 à 10 fois moins de jetons de générateur. Il offre également les meilleures performances de QA multimodale avec images sur WebQA. Le code est disponible à l’adresse https://github.com/zz1358m/Latent-Memory-Master.

English

External memory effectively grounds large language models (LLMs) and vision-language models (VLMs)-based question answering (QA) in relevant multimodal evidence. However, existing memory paradigms represent each memory item in raw text and image forms, so retrieval-based systems must pass the retrieved text or images to the generation LLMs/VLMs, resulting in high token consumption and storage pressure, making it unaffordable for resource-constrained applications. We propose Latent Memory, a latent-space memory paradigm that replaces each raw text or image evidence item with a single high-dimensional latent token produced by a small compressor LLM/VLM. Rather than retrieving raw evidence for generation, Latent Memory operates in a unified latent representation space: the query is embedded into this space to retrieve relevant latent tokens, and the retrieved latent tokens are directly prompted to a pretrained LLM or VLM for answer generation. To make each latent token simultaneously informative for reconstruction, retrieval, and generation, we train the compressor with reconstruction, contrastive, and distillation objectives in a unified end-to-end manner. Latent Memory is evaluated on seven text-only QA benchmarks (e.g., HotpotQA) and multimodal QA benchmarks, where it achieves competitive QA performance compared to advanced RAG baselines while consuming 3x to 10x fewer generator tokens. It can also deliver the strongest image-grounded QA performance on WebQA. Code is available at https://github.com/zz1358m/Latent-Memory-Master.