HARP: Reformulación Consciente de la Vacilación en el Paso de Inferencia del Transformador

Resumen

Este artículo tiene como objetivo mejorar el rendimiento de los grandes modelos de lenguaje abordando las demandas computacionales variables en los pasos de inferencia, donde algunos tokens requieren más recursos computacionales que otros. Presentamos HARP, una modificación simple al pase hacia adelante del Transformer "listo para usar". Inspirado en la vacilación y el efecto de enmarcado en la toma de decisiones, HARP aplica selectivamente cálculos adicionales cuando el modelo se enfrenta a la incertidumbre durante la generación de tokens. Nuestro método imita los procesos cognitivos humanos al pausar en puntos de decisión difíciles y reformular las entradas desde una perspectiva diferente. A diferencia de otros enfoques, HARP es agnóstico al modelo, no requiere entrenamiento y es fácil de implementar. Evaluamos exhaustivamente nuestro método en diversas tareas secundarias y tamaños de modelo, demostrando mejoras de rendimiento de hasta +5.16%. Es destacable que HARP logra estos avances manteniendo tiempos de inferencia dos veces más rápidos que la búsqueda en haz. Simple pero con ganancias significativas, HARP ofrece una solución práctica para mejorar el rendimiento de los modelos de lenguaje basados en Transformer con un impacto computacional mínimo.

English

This paper aims to improve the performance of large language models by addressing the variable computational demands in inference steps, where some tokens require more computational resources than others. We present HARP, a simple modification to "off-the-shelf" Transformer forward pass. Drawing from hesitation and the framing effect in decision-making, HARP selectively applies additional computation when the model encounters uncertainty during token generation. Our method mimics human cognitive processes by pausing at difficult decision points and reframing inputs for a different perspective. Unlike other approaches, HARP is model-agnostic, training-free, and easy to implement. We thoroughly evaluate our method across various downstream tasks and model sizes, demonstrating performance improvements up to +5.16%. Notably, HARP achieves these gains while maintaining inference times twice faster than beam search. Simple and yet with significant gains, HARP offers a practical solution for enhancing the performance of Transformer-based language models with minimal computational impact.

HARP: Reformulación Consciente de la Vacilación en el Paso de Inferencia del Transformador

HARP: Hesitation-Aware Reframing in Transformer Inference Pass

Resumen

Support