ChatPaper.aiChatPaper

HARP: Zögern-bewusste Neuausrichtung im Transformer-Inferenzdurchlauf

HARP: Hesitation-Aware Reframing in Transformer Inference Pass

December 10, 2024
Autoren: Romain Storaï, Seung-won Hwang
cs.AI

Zusammenfassung

Dieses Paper zielt darauf ab, die Leistung großer Sprachmodelle zu verbessern, indem es auf die variablen Rechenanforderungen in Inferenzschritten eingeht, bei denen einige Token mehr Rechenressourcen als andere erfordern. Wir stellen HARP vor, eine einfache Modifikation des "von der Stange" Transformer-Vorwärtspasses. Mit Bezug auf Zögern und den Framing-Effekt bei Entscheidungsfindung wendet HARP selektiv zusätzliche Berechnungen an, wenn das Modell bei der Token-Generierung auf Unsicherheit stößt. Unsere Methode ahmt menschliche kognitive Prozesse nach, indem sie an schwierigen Entscheidungspunkten pausiert und Eingaben für eine andere Perspektive neu formuliert. Im Gegensatz zu anderen Ansätzen ist HARP modellagnostisch, erfordert kein Training und ist einfach umzusetzen. Wir evaluieren unsere Methode gründlich in verschiedenen nachgelagerten Aufgaben und Modellgrößen und zeigen Leistungsverbesserungen von bis zu +5,16%. Bemerkenswerterweise erzielt HARP diese Gewinne, während die Inferenzzeiten doppelt so schnell wie bei Beam Search bleiben. Einfach und dennoch mit signifikanten Gewinnen bietet HARP eine praktische Lösung zur Verbesserung der Leistung von auf Transformer basierenden Sprachmodellen mit minimalem Rechenaufwand.
English
This paper aims to improve the performance of large language models by addressing the variable computational demands in inference steps, where some tokens require more computational resources than others. We present HARP, a simple modification to "off-the-shelf" Transformer forward pass. Drawing from hesitation and the framing effect in decision-making, HARP selectively applies additional computation when the model encounters uncertainty during token generation. Our method mimics human cognitive processes by pausing at difficult decision points and reframing inputs for a different perspective. Unlike other approaches, HARP is model-agnostic, training-free, and easy to implement. We thoroughly evaluate our method across various downstream tasks and model sizes, demonstrating performance improvements up to +5.16%. Notably, HARP achieves these gains while maintaining inference times twice faster than beam search. Simple and yet with significant gains, HARP offers a practical solution for enhancing the performance of Transformer-based language models with minimal computational impact.

Summary

AI-Generated Summary

PDF43December 11, 2024