LazyLLM : Élagage dynamique de tokens pour une inférence efficace des LLM à contexte longLazyLLM: Dynamic Token Pruning for Efficient Long Context LLM Inference
L'inférence des grands modèles de langage basés sur des transformateurs se compose de deux étapes séquentielles : 1) une étape de préremplissage pour calculer le cache KV des prompts et générer le premier token, et 2) une étape de décodage pour générer les tokens suivants. Pour les prompts longs, le cache KV doit être calculé pour tous les tokens lors de l'étape de préremplissage, ce qui peut considérablement augmenter le temps nécessaire pour générer le premier token. Par conséquent, l'étape de préremplissage peut devenir un goulot d'étranglement dans le processus de génération. Une question ouverte demeure : tous les tokens du prompt sont-ils essentiels pour générer le premier token ? Pour y répondre, nous introduisons une nouvelle méthode, LazyLLM, qui calcule sélectivement le KV pour les tokens importants pour la prédiction du token suivant, à la fois lors des étapes de préremplissage et de décodage. Contrairement aux approches d'élagage statique qui élaguent le prompt en une seule fois, LazyLLM permet aux modèles de langage de sélectionner dynamiquement différents sous-ensembles de tokens du contexte à différentes étapes de génération, même s'ils ont pu être élagués lors des étapes précédentes. Des expériences approfondies sur des ensembles de données standard pour diverses tâches démontrent que LazyLLM est une méthode générique qui peut être intégrée de manière transparente avec les modèles de langage existants pour accélérer significativement la génération sans nécessiter de réglage fin. Par exemple, dans la tâche de réponse à des questions sur plusieurs documents, LazyLLM accélère l'étape de préremplissage du modèle LLama 2 7B par un facteur de 2,34 tout en maintenant la précision.