HARP: Aarzeling-Bewuste Herformulering in de Transformer Inferentie Doorgang

Samenvatting

Dit artikel heeft als doel de prestaties van grote taalmodellen te verbeteren door de variabele computationele eisen in inferentiestappen aan te pakken, waarbij sommige tokens meer computationele middelen vereisen dan andere. We presenteren HARP, een eenvoudige aanpassing aan de "kant-en-klare" Transformer forward pass. Geïnspireerd door aarzeling en het framing-effect in besluitvorming, past HARP selectief extra berekeningen toe wanneer het model onzekerheid tegenkomt tijdens token-generatie. Onze methode bootst menselijke cognitieve processen na door te pauzeren bij moeilijke beslispunten en invoergegevens te herformuleren voor een ander perspectief. In tegenstelling tot andere benaderingen is HARP model-agnostisch, vereist geen training en is eenvoudig te implementeren. We evalueren onze methode grondig over verschillende taken en modelgroottes, waarbij prestatieverbeteringen tot +5.16% worden aangetoond. Opmerkelijk is dat HARP deze winsten behaalt terwijl de inferentietijden twee keer sneller zijn dan bij beam search. Eenvoudig en toch met aanzienlijke voordelen biedt HARP een praktische oplossing voor het verbeteren van de prestaties van op Transformer gebaseerde taalmodellen met minimale computationele impact.

English

This paper aims to improve the performance of large language models by addressing the variable computational demands in inference steps, where some tokens require more computational resources than others. We present HARP, a simple modification to "off-the-shelf" Transformer forward pass. Drawing from hesitation and the framing effect in decision-making, HARP selectively applies additional computation when the model encounters uncertainty during token generation. Our method mimics human cognitive processes by pausing at difficult decision points and reframing inputs for a different perspective. Unlike other approaches, HARP is model-agnostic, training-free, and easy to implement. We thoroughly evaluate our method across various downstream tasks and model sizes, demonstrating performance improvements up to +5.16%. Notably, HARP achieves these gains while maintaining inference times twice faster than beam search. Simple and yet with significant gains, HARP offers a practical solution for enhancing the performance of Transformer-based language models with minimal computational impact.

HARP: Aarzeling-Bewuste Herformulering in de Transformer Inferentie Doorgang

HARP: Hesitation-Aware Reframing in Transformer Inference Pass

Samenvatting

Support