HARP: Aarzeling-Bewuste Herformulering in de Transformer Inferentie Doorgang
HARP: Hesitation-Aware Reframing in Transformer Inference Pass
December 10, 2024
Auteurs: Romain Storaï, Seung-won Hwang
cs.AI
Samenvatting
Dit artikel heeft als doel de prestaties van grote taalmodellen te verbeteren door de variabele computationele eisen in inferentiestappen aan te pakken, waarbij sommige tokens meer computationele middelen vereisen dan andere. We presenteren HARP, een eenvoudige aanpassing aan de "kant-en-klare" Transformer forward pass. Geïnspireerd door aarzeling en het framing-effect in besluitvorming, past HARP selectief extra berekeningen toe wanneer het model onzekerheid tegenkomt tijdens token-generatie. Onze methode bootst menselijke cognitieve processen na door te pauzeren bij moeilijke beslispunten en invoergegevens te herformuleren voor een ander perspectief. In tegenstelling tot andere benaderingen is HARP model-agnostisch, vereist geen training en is eenvoudig te implementeren. We evalueren onze methode grondig over verschillende taken en modelgroottes, waarbij prestatieverbeteringen tot +5.16% worden aangetoond. Opmerkelijk is dat HARP deze winsten behaalt terwijl de inferentietijden twee keer sneller zijn dan bij beam search. Eenvoudig en toch met aanzienlijke voordelen biedt HARP een praktische oplossing voor het verbeteren van de prestaties van op Transformer gebaseerde taalmodellen met minimale computationele impact.
English
This paper aims to improve the performance of large language models by
addressing the variable computational demands in inference steps, where some
tokens require more computational resources than others. We present HARP, a
simple modification to "off-the-shelf" Transformer forward pass. Drawing from
hesitation and the framing effect in decision-making, HARP selectively applies
additional computation when the model encounters uncertainty during token
generation. Our method mimics human cognitive processes by pausing at difficult
decision points and reframing inputs for a different perspective. Unlike other
approaches, HARP is model-agnostic, training-free, and easy to implement. We
thoroughly evaluate our method across various downstream tasks and model sizes,
demonstrating performance improvements up to +5.16%. Notably, HARP achieves
these gains while maintaining inference times twice faster than beam search.
Simple and yet with significant gains, HARP offers a practical solution for
enhancing the performance of Transformer-based language models with minimal
computational impact.