Один токен на мультимодальное свидетельство: латентная память для QA в условиях ограниченных ресурсов

Аннотация

Внешняя память эффективно обосновывает ответы на вопросы (QA) на основе больших языковых моделей (LLM) и моделей «зрение-язык» (VLM) в релевантных мультимодальных свидетельствах. Однако существующие парадигмы памяти представляют каждый элемент памяти в виде необработанного текста и изображений, поэтому системы, основанные на поиске, должны передавать извлеченный текст или изображения генеративным LLM/VLM, что приводит к высокому потреблению токенов и нагрузке на хранилище, делая их неприемлемыми для приложений с ограниченными ресурсами. Мы предлагаем Latent Memory — парадигму памяти в латентном пространстве, которая заменяет каждый элемент исходного текстового или графического свидетельства одним высокоразмерным латентным токеном, созданным небольшой LLM/VLM-компрессором. Вместо извлечения исходных свидетельств для генерации Latent Memory работает в едином пространстве латентных представлений: запрос встраивается в это пространство для поиска релевантных латентных токенов, а найденные латентные токены напрямую передаются в предобученную LLM или VLM для генерации ответа. Чтобы каждый латентный токен был одновременно информативным для реконструкции, поиска и генерации, мы обучаем компрессор с помощью целей реконструкции, контрастивного обучения и дистилляции в едином сквозном режиме. Latent Memory оценивается на семи текстовых QA-бенчмарках (например, HotpotQA) и мультимодальных QA-бенчмарках, где достигает конкурентоспособной производительности QA по сравнению с продвинутыми базовыми методами RAG, потребляя при этом в 3–10 раз меньше токенов генератора. Кроме того, он демонстрирует наилучшую производительность при ответах на вопросы, основанных на изображениях, на наборе данных WebQA. Код доступен по адресу https://github.com/zz1358m/Latent-Memory-Master.

English

External memory effectively grounds large language models (LLMs) and vision-language models (VLMs)-based question answering (QA) in relevant multimodal evidence. However, existing memory paradigms represent each memory item in raw text and image forms, so retrieval-based systems must pass the retrieved text or images to the generation LLMs/VLMs, resulting in high token consumption and storage pressure, making it unaffordable for resource-constrained applications. We propose Latent Memory, a latent-space memory paradigm that replaces each raw text or image evidence item with a single high-dimensional latent token produced by a small compressor LLM/VLM. Rather than retrieving raw evidence for generation, Latent Memory operates in a unified latent representation space: the query is embedded into this space to retrieve relevant latent tokens, and the retrieved latent tokens are directly prompted to a pretrained LLM or VLM for answer generation. To make each latent token simultaneously informative for reconstruction, retrieval, and generation, we train the compressor with reconstruction, contrastive, and distillation objectives in a unified end-to-end manner. Latent Memory is evaluated on seven text-only QA benchmarks (e.g., HotpotQA) and multimodal QA benchmarks, where it achieves competitive QA performance compared to advanced RAG baselines while consuming 3x to 10x fewer generator tokens. It can also deliver the strongest image-grounded QA performance on WebQA. Code is available at https://github.com/zz1358m/Latent-Memory-Master.