HARP: Reformulación Consciente de la Vacilación en el Paso de Inferencia del Transformador
HARP: Hesitation-Aware Reframing in Transformer Inference Pass
December 10, 2024
Autores: Romain Storaï, Seung-won Hwang
cs.AI
Resumen
Este artículo tiene como objetivo mejorar el rendimiento de los grandes modelos de lenguaje abordando las demandas computacionales variables en los pasos de inferencia, donde algunos tokens requieren más recursos computacionales que otros. Presentamos HARP, una modificación simple al pase hacia adelante del Transformer "listo para usar". Inspirado en la vacilación y el efecto de enmarcado en la toma de decisiones, HARP aplica selectivamente cálculos adicionales cuando el modelo se enfrenta a la incertidumbre durante la generación de tokens. Nuestro método imita los procesos cognitivos humanos al pausar en puntos de decisión difíciles y reformular las entradas desde una perspectiva diferente. A diferencia de otros enfoques, HARP es agnóstico al modelo, no requiere entrenamiento y es fácil de implementar. Evaluamos exhaustivamente nuestro método en diversas tareas secundarias y tamaños de modelo, demostrando mejoras de rendimiento de hasta +5.16%. Es destacable que HARP logra estos avances manteniendo tiempos de inferencia dos veces más rápidos que la búsqueda en haz. Simple pero con ganancias significativas, HARP ofrece una solución práctica para mejorar el rendimiento de los modelos de lenguaje basados en Transformer con un impacto computacional mínimo.
English
This paper aims to improve the performance of large language models by
addressing the variable computational demands in inference steps, where some
tokens require more computational resources than others. We present HARP, a
simple modification to "off-the-shelf" Transformer forward pass. Drawing from
hesitation and the framing effect in decision-making, HARP selectively applies
additional computation when the model encounters uncertainty during token
generation. Our method mimics human cognitive processes by pausing at difficult
decision points and reframing inputs for a different perspective. Unlike other
approaches, HARP is model-agnostic, training-free, and easy to implement. We
thoroughly evaluate our method across various downstream tasks and model sizes,
demonstrating performance improvements up to +5.16%. Notably, HARP achieves
these gains while maintaining inference times twice faster than beam search.
Simple and yet with significant gains, HARP offers a practical solution for
enhancing the performance of Transformer-based language models with minimal
computational impact.Summary
AI-Generated Summary