Speculatieve Streaming: Snelle LLM-inferentie zonder hulpmodelen
Speculative Streaming: Fast LLM Inference without Auxiliary Models
February 16, 2024
Auteurs: Nikhil Bhendawade, Irina Belousova, Qichen Fu, Henry Mason, Mohammad Rastegari, Mahyar Najibi
cs.AI
Samenvatting
Speculatieve decodering is een prominente techniek om de inferentie van een groot doel-taalmodel te versnellen op basis van voorspellingen van een hulp-draftmodel. Hoewel effectief, vereist dit in toepassingsspecifieke settings vaak het finetunen van zowel het draft- als het doelmodel om hoge acceptatiepercentages te bereiken. Naarmate het aantal downstream taken toeneemt, voegen deze draftmodellen aanzienlijke complexiteit toe aan inferentiesystemen. Wij stellen Speculative Streaming voor, een single-model speculatieve decoderingmethode die het draften integreert in het doelmodel door het finetuningdoel te veranderen van voorspelling van de volgende token naar voorspelling van toekomstige n-grammen. Speculative Streaming versnelt de decodering met 1,8 tot 3,1X in een diverse set van taken, zoals Samenvatting, Gestructureerde Query's en Betekenisrepresentatie, zonder in te leveren op generatiekwaliteit. Daarnaast is Speculative Streaming parameter-efficiënt. Het behaalt vergelijkbare/hogere snelheidsverbeteringen dan Medusa-achtige architecturen terwijl het ~10000X minder extra parameters gebruikt, wat het geschikt maakt voor apparaten met beperkte middelen.
English
Speculative decoding is a prominent technique to speed up the inference of a
large target language model based on predictions of an auxiliary draft model.
While effective, in application-specific settings, it often involves
fine-tuning both draft and target models to achieve high acceptance rates. As
the number of downstream tasks grows, these draft models add significant
complexity to inference systems. We propose Speculative Streaming, a
single-model speculative decoding method that fuses drafting into the target
model by changing the fine-tuning objective from next token prediction to
future n-gram prediction. Speculative Streaming speeds up decoding by 1.8 -
3.1X in a diverse set of tasks, such as Summarization, Structured Queries, and
Meaning Representation, without sacrificing generation quality. Additionally,
Speculative Streaming is parameter-efficient. It achieves on-par/higher
speed-ups than Medusa-style architectures while using ~10000X fewer extra
parameters, making it well-suited for resource-constrained devices.