HARP: Zögern-bewusste Neuausrichtung im Transformer-Inferenzdurchlauf
HARP: Hesitation-Aware Reframing in Transformer Inference Pass
December 10, 2024
Autoren: Romain Storaï, Seung-won Hwang
cs.AI
Zusammenfassung
Dieses Paper zielt darauf ab, die Leistung großer Sprachmodelle zu verbessern, indem es auf die variablen Rechenanforderungen in Inferenzschritten eingeht, bei denen einige Token mehr Rechenressourcen als andere erfordern. Wir stellen HARP vor, eine einfache Modifikation des "von der Stange" Transformer-Vorwärtspasses. Mit Bezug auf Zögern und den Framing-Effekt bei Entscheidungsfindung wendet HARP selektiv zusätzliche Berechnungen an, wenn das Modell bei der Token-Generierung auf Unsicherheit stößt. Unsere Methode ahmt menschliche kognitive Prozesse nach, indem sie an schwierigen Entscheidungspunkten pausiert und Eingaben für eine andere Perspektive neu formuliert. Im Gegensatz zu anderen Ansätzen ist HARP modellagnostisch, erfordert kein Training und ist einfach umzusetzen. Wir evaluieren unsere Methode gründlich in verschiedenen nachgelagerten Aufgaben und Modellgrößen und zeigen Leistungsverbesserungen von bis zu +5,16%. Bemerkenswerterweise erzielt HARP diese Gewinne, während die Inferenzzeiten doppelt so schnell wie bei Beam Search bleiben. Einfach und dennoch mit signifikanten Gewinnen bietet HARP eine praktische Lösung zur Verbesserung der Leistung von auf Transformer basierenden Sprachmodellen mit minimalem Rechenaufwand.
English
This paper aims to improve the performance of large language models by
addressing the variable computational demands in inference steps, where some
tokens require more computational resources than others. We present HARP, a
simple modification to "off-the-shelf" Transformer forward pass. Drawing from
hesitation and the framing effect in decision-making, HARP selectively applies
additional computation when the model encounters uncertainty during token
generation. Our method mimics human cognitive processes by pausing at difficult
decision points and reframing inputs for a different perspective. Unlike other
approaches, HARP is model-agnostic, training-free, and easy to implement. We
thoroughly evaluate our method across various downstream tasks and model sizes,
demonstrating performance improvements up to +5.16%. Notably, HARP achieves
these gains while maintaining inference times twice faster than beam search.
Simple and yet with significant gains, HARP offers a practical solution for
enhancing the performance of Transformer-based language models with minimal
computational impact.Summary
AI-Generated Summary