GLIMMER : réorganisateur de mémoire à interaction tardive généralisée
GLIMMER: generalized late-interaction memory reranker
June 17, 2023
Auteurs: Michiel de Jong, Yury Zemlyanskiy, Nicholas FitzGerald, Sumit Sanghai, William W. Cohen, Joshua Ainslie
cs.AI
Résumé
L'augmentation de mémoire est une approche puissante pour intégrer efficacement des informations externes dans les modèles de langage, mais elle entraîne une réduction des performances par rapport à la récupération de texte. Des travaux récents ont introduit LUMEN, un hybride de mémoire et de récupération qui pré-calcule partiellement la mémoire et met à jour les représentations de mémoire en temps réel avec un encodeur actif plus petit.
Nous proposons GLIMMER, qui améliore cette approche grâce à 1) l'exploitation d'un accès libre aux représentations de mémoire puissantes en appliquant un reclassificateur superficiel sur la mémoire pour améliorer considérablement la qualité de la récupération à faible coût, et 2) l'intégration d'un apprentissage multi-tâches pour apprendre une mémoire et un encodeur actif plus généraux et de meilleure qualité. GLIMMER obtient des gains de performance significatifs à des vitesses plus rapides par rapport à LUMEN et FiD sur le benchmark KILT de tâches intensives en connaissances.
English
Memory-augmentation is a powerful approach for efficiently incorporating
external information into language models, but leads to reduced performance
relative to retrieving text. Recent work introduced LUMEN, a memory-retrieval
hybrid that partially pre-computes memory and updates memory representations on
the fly with a smaller live encoder.
We propose GLIMMER, which improves on this approach through 1) exploiting
free access to the powerful memory representations by applying a shallow
reranker on top of memory to drastically improve retrieval quality at low cost,
and 2) incorporating multi-task training to learn a general and higher quality
memory and live encoder. GLIMMER achieves strong gains in performance at faster
speeds compared to LUMEN and FiD on the KILT benchmark of knowledge-intensive
tasks.