HARP : Reformulation Sensible des Hésitations dans le Passage d'Inférence du Transformeur
HARP: Hesitation-Aware Reframing in Transformer Inference Pass
December 10, 2024
Auteurs: Romain Storaï, Seung-won Hwang
cs.AI
Résumé
Cet article vise à améliorer les performances des grands modèles de langage en abordant les demandes computationnelles variables lors des étapes d'inférence, où certains tokens nécessitent plus de ressources computationnelles que d'autres. Nous présentons HARP, une modification simple du passage avant du Transformer "prêt à l'emploi". S'inspirant de l'hésitation et de l'effet de cadrage dans la prise de décision, HARP applique sélectivement des calculs supplémentaires lorsque le modèle rencontre de l'incertitude lors de la génération de tokens. Notre méthode imite les processus cognitifs humains en faisant une pause aux points de décision difficiles et en reformulant les entrées pour une perspective différente. Contrairement à d'autres approches, HARP est agnostique au modèle, ne nécessite pas d'entraînement et est facile à implémenter. Nous évaluons rigoureusement notre méthode sur diverses tâches secondaires et tailles de modèles, démontrant des améliorations de performance allant jusqu'à +5,16%. Notamment, HARP réalise ces gains tout en maintenant des temps d'inférence deux fois plus rapides que la recherche par faisceau. Simple et pourtant avec des gains significatifs, HARP offre une solution pratique pour améliorer les performances des modèles de langage basés sur Transformer avec un impact computationnel minimal.
English
This paper aims to improve the performance of large language models by
addressing the variable computational demands in inference steps, where some
tokens require more computational resources than others. We present HARP, a
simple modification to "off-the-shelf" Transformer forward pass. Drawing from
hesitation and the framing effect in decision-making, HARP selectively applies
additional computation when the model encounters uncertainty during token
generation. Our method mimics human cognitive processes by pausing at difficult
decision points and reframing inputs for a different perspective. Unlike other
approaches, HARP is model-agnostic, training-free, and easy to implement. We
thoroughly evaluate our method across various downstream tasks and model sizes,
demonstrating performance improvements up to +5.16%. Notably, HARP achieves
these gains while maintaining inference times twice faster than beam search.
Simple and yet with significant gains, HARP offers a practical solution for
enhancing the performance of Transformer-based language models with minimal
computational impact.Summary
AI-Generated Summary