HARP: Reformulação Consciente de Hesitação na Passagem de Inferência do Transformer
HARP: Hesitation-Aware Reframing in Transformer Inference Pass
December 10, 2024
Autores: Romain Storaï, Seung-won Hwang
cs.AI
Resumo
Este artigo tem como objetivo melhorar o desempenho de grandes modelos de linguagem ao lidar com as demandas computacionais variáveis nas etapas de inferência, onde alguns tokens requerem mais recursos computacionais do que outros. Apresentamos o HARP, uma modificação simples no "forward pass" do Transformer "pronto para uso". Inspirado pela hesitação e pelo efeito de enquadramento na tomada de decisões, o HARP aplica seletivamente computação adicional quando o modelo encontra incerteza durante a geração de tokens. Nosso método imita processos cognitivos humanos ao pausar em pontos de decisão difíceis e reformular entradas para uma perspectiva diferente. Ao contrário de outras abordagens, o HARP é agnóstico ao modelo, não requer treinamento e é fácil de implementar. Avaliamos minuciosamente nosso método em várias tarefas secundárias e tamanhos de modelo, demonstrando melhorias de desempenho de até +5,16%. Notavelmente, o HARP alcança esses ganhos mantendo tempos de inferência duas vezes mais rápidos do que a busca em feixe. Simples e ainda com ganhos significativos, o HARP oferece uma solução prática para melhorar o desempenho de modelos de linguagem baseados em Transformer com impacto computacional mínimo.
English
This paper aims to improve the performance of large language models by
addressing the variable computational demands in inference steps, where some
tokens require more computational resources than others. We present HARP, a
simple modification to "off-the-shelf" Transformer forward pass. Drawing from
hesitation and the framing effect in decision-making, HARP selectively applies
additional computation when the model encounters uncertainty during token
generation. Our method mimics human cognitive processes by pausing at difficult
decision points and reframing inputs for a different perspective. Unlike other
approaches, HARP is model-agnostic, training-free, and easy to implement. We
thoroughly evaluate our method across various downstream tasks and model sizes,
demonstrating performance improvements up to +5.16%. Notably, HARP achieves
these gains while maintaining inference times twice faster than beam search.
Simple and yet with significant gains, HARP offers a practical solution for
enhancing the performance of Transformer-based language models with minimal
computational impact.Summary
AI-Generated Summary