Transformadores em Tandem para LLMs Eficientes em Inferência

Resumo

A natureza autoregressiva dos modelos de linguagem grandes (LLMs) convencionais limita inerentemente a velocidade de inferência, uma vez que os tokens são gerados sequencialmente. Embora técnicas de decodificação especulativa e paralela tentem mitigar isso, elas enfrentam limitações: ou dependem de modelos menores e menos precisos para geração ou falham em aproveitar totalmente as representações do LLM base. Introduzimos uma nova arquitetura, os Tandem transformers, para abordar essas questões. Essa arquitetura combina de forma única (1) um pequeno modelo autoregressivo e (2) um modelo grande operando em modo de bloco (processando múltiplos tokens simultaneamente). A precisão preditiva do modelo pequeno é substancialmente aprimorada ao permitir que ele atente para as representações mais ricas do modelo grande. No conjunto de dados de pré-treinamento do PaLM2, um tandem de PaLM2-Bison e PaLM2-Gecko demonstra uma melhoria de 3,3% na precisão de previsão do próximo token em relação a um PaLM2-Gecko autônomo, oferecendo um aumento de velocidade de 1,16x em comparação com um modelo PaLM2-Otter com desempenho comparável em tarefas subsequentes. Além disso, incorporamos o modelo tandem dentro do framework de decodificação especulativa (SPEED), onde o modelo grande valida os tokens do modelo pequeno. Isso garante que o Tandem de PaLM2-Bison e PaLM2-Gecko alcance um aumento substancial de velocidade (cerca de 1,14x mais rápido do que usar o PaLM2-Gecko padrão no SPEED) enquanto mantém a precisão idêntica em tarefas subsequentes.

English

The autoregressive nature of conventional large language models (LLMs) inherently limits inference speed, as tokens are generated sequentially. While speculative and parallel decoding techniques attempt to mitigate this, they face limitations: either relying on less accurate smaller models for generation or failing to fully leverage the base LLM's representations. We introduce a novel architecture, Tandem transformers, to address these issues. This architecture uniquely combines (1) a small autoregressive model and (2) a large model operating in block mode (processing multiple tokens simultaneously). The small model's predictive accuracy is substantially enhanced by granting it attention to the large model's richer representations. On the PaLM2 pretraining dataset, a tandem of PaLM2-Bison and PaLM2-Gecko demonstrates a 3.3% improvement in next-token prediction accuracy over a standalone PaLM2-Gecko, offering a 1.16x speedup compared to a PaLM2-Otter model with comparable downstream performance. We further incorporate the tandem model within the speculative decoding (SPEED) framework where the large model validates tokens from the small model. This ensures that the Tandem of PaLM2-Bison and PaLM2-Gecko achieves substantial speedup (around 1.14x faster than using vanilla PaLM2-Gecko in SPEED) while maintaining identical downstream task accuracy.

Transformadores em Tandem para LLMs Eficientes em Inferência

Tandem Transformers for Inference Efficient LLMs

Resumo

Support