ChatPaper.aiChatPaper

HARP: Reformulação Consciente de Hesitação na Passagem de Inferência do Transformer

HARP: Hesitation-Aware Reframing in Transformer Inference Pass

December 10, 2024
Autores: Romain Storaï, Seung-won Hwang
cs.AI

Resumo

Este artigo tem como objetivo melhorar o desempenho de grandes modelos de linguagem ao lidar com as demandas computacionais variáveis nas etapas de inferência, onde alguns tokens requerem mais recursos computacionais do que outros. Apresentamos o HARP, uma modificação simples no "forward pass" do Transformer "pronto para uso". Inspirado pela hesitação e pelo efeito de enquadramento na tomada de decisões, o HARP aplica seletivamente computação adicional quando o modelo encontra incerteza durante a geração de tokens. Nosso método imita processos cognitivos humanos ao pausar em pontos de decisão difíceis e reformular entradas para uma perspectiva diferente. Ao contrário de outras abordagens, o HARP é agnóstico ao modelo, não requer treinamento e é fácil de implementar. Avaliamos minuciosamente nosso método em várias tarefas secundárias e tamanhos de modelo, demonstrando melhorias de desempenho de até +5,16%. Notavelmente, o HARP alcança esses ganhos mantendo tempos de inferência duas vezes mais rápidos do que a busca em feixe. Simples e ainda com ganhos significativos, o HARP oferece uma solução prática para melhorar o desempenho de modelos de linguagem baseados em Transformer com impacto computacional mínimo.
English
This paper aims to improve the performance of large language models by addressing the variable computational demands in inference steps, where some tokens require more computational resources than others. We present HARP, a simple modification to "off-the-shelf" Transformer forward pass. Drawing from hesitation and the framing effect in decision-making, HARP selectively applies additional computation when the model encounters uncertainty during token generation. Our method mimics human cognitive processes by pausing at difficult decision points and reframing inputs for a different perspective. Unlike other approaches, HARP is model-agnostic, training-free, and easy to implement. We thoroughly evaluate our method across various downstream tasks and model sizes, demonstrating performance improvements up to +5.16%. Notably, HARP achieves these gains while maintaining inference times twice faster than beam search. Simple and yet with significant gains, HARP offers a practical solution for enhancing the performance of Transformer-based language models with minimal computational impact.

Summary

AI-Generated Summary

PDF43December 11, 2024