ChatPaper.aiChatPaper

Decodifica Speculativa del Vicino Più Prossimo per la Generazione e Attribuzione di Modelli Linguistici di Grande Dimensione

Nearest Neighbor Speculative Decoding for LLM Generation and Attribution

May 29, 2024
Autori: Minghan Li, Xilun Chen, Ari Holtzman, Beidi Chen, Jimmy Lin, Wen-tau Yih, Xi Victoria Lin
cs.AI

Abstract

I grandi modelli linguistici (LLM) spesso producono allucinazioni e mancano della capacità di fornire attribuzioni per le loro generazioni. I modelli linguistici semi-parametrici, come il kNN-LM, affrontano queste limitazioni affinando l'output di un modello linguistico per un dato prompt utilizzando le corrispondenze dei vicini più prossimi in un archivio dati non parametrico. Tuttavia, questi modelli spesso presentano velocità di inferenza lente e producono testi non fluenti. In questo articolo, introduciamo il Nearest Neighbor Speculative Decoding (NEST), un nuovo approccio di modellazione linguistica semi-parametrica in grado di incorporare segmenti di testo del mondo reale di lunghezza arbitraria nelle generazioni del modello linguistico e di fornire attribuzioni alle loro fonti. NEST esegue il recupero a livello di token in ogni passo di inferenza per calcolare una distribuzione mista semi-parametrica e identificare promettenti continuazioni di segmenti in un corpus. Utilizza quindi una procedura approssimata di decodifica speculativa che accetta un prefisso del segmento recuperato o genera un nuovo token. NEST migliora significativamente la qualità della generazione e il tasso di attribuzione del modello linguistico di base in una varietà di task ad alta intensità di conoscenza, superando il metodo convenzionale kNN-LM e competendo con l'aumento contestuale del recupero. Inoltre, NEST migliora sostanzialmente la velocità di generazione, ottenendo un'accelerazione di 1,8x nel tempo di inferenza quando applicato a Llama-2-Chat 70B.
English
Large language models (LLMs) often hallucinate and lack the ability to provide attribution for their generations. Semi-parametric LMs, such as kNN-LM, approach these limitations by refining the output of an LM for a given prompt using its nearest neighbor matches in a non-parametric data store. However, these models often exhibit slow inference speeds and produce non-fluent texts. In this paper, we introduce Nearest Neighbor Speculative Decoding (NEST), a novel semi-parametric language modeling approach that is capable of incorporating real-world text spans of arbitrary length into the LM generations and providing attribution to their sources. NEST performs token-level retrieval at each inference step to compute a semi-parametric mixture distribution and identify promising span continuations in a corpus. It then uses an approximate speculative decoding procedure that accepts a prefix of the retrieved span or generates a new token. NEST significantly enhances the generation quality and attribution rate of the base LM across a variety of knowledge-intensive tasks, surpassing the conventional kNN-LM method and performing competitively with in-context retrieval augmentation. In addition, NEST substantially improves the generation speed, achieving a 1.8x speedup in inference time when applied to Llama-2-Chat 70B.
PDF140February 8, 2026