Écriture dans les marges : Meilleur motif d'inférence pour la récupération de longs contextesWriting in the Margins: Better Inference Pattern for Long Context
Retrieval
Dans cet article, nous présentons Writing in the Margins (WiM), un nouveau schéma d'inférence pour les grands modèles de langage conçu pour optimiser le traitement de longues séquences d'entrée dans des tâches orientées vers la récupération. Cette approche exploite le pré-remplissage segmenté du cache clé-valeur pour effectuer une inférence par segment, ce qui permet un traitement efficace de contextes étendus ainsi que la génération et la classification d'informations intermédiaires ("marges") qui guident le modèle vers des tâches spécifiques. Cette méthode augmente légèrement la charge de calcul tout en améliorant significativement les performances des modèles prêts à l'emploi sans nécessiter de fine-tuning. Plus précisément, nous observons que WiM apporte une amélioration moyenne de 7,5 % en termes de précision pour les compétences de raisonnement (HotpotQA, MultiHop-RAG) et une augmentation de plus de 30,0 % du score F1 pour les tâches d'agrégation (CWE). De plus, nous montrons comment le schéma proposé s'intègre dans une conception interactive de récupération qui fournit aux utilisateurs finaux des mises à jour continues sur l'avancement du traitement du contexte, et souligne l'intégration d'informations pertinentes dans la réponse finale. Nous mettons à disposition notre implémentation de WiM en utilisant la bibliothèque Hugging Face Transformers sur https://github.com/writer/writing-in-the-margins.