Nearest Neighbor Speculatieve Decodering voor LLM-generatie en Attributie
Nearest Neighbor Speculative Decoding for LLM Generation and Attribution
May 29, 2024
Auteurs: Minghan Li, Xilun Chen, Ari Holtzman, Beidi Chen, Jimmy Lin, Wen-tau Yih, Xi Victoria Lin
cs.AI
Samenvatting
Grote taalmodellen (LLM's) hallucineren vaak en hebben niet het vermogen om bronvermelding te geven voor hun gegenereerde tekst. Semi-parametrische taalmodellen, zoals kNN-LM, benaderen deze beperkingen door de uitvoer van een taalmodel voor een gegeven prompt te verfijnen met behulp van de dichtstbijzijnde overeenkomsten in een niet-parametrische gegevensopslag. Deze modellen vertonen echter vaak trage inferentiesnelheden en produceren niet-vloeiende teksten. In dit artikel introduceren we Nearest Neighbor Speculative Decoding (NEST), een nieuwe semi-parametrische benadering voor taalmodellering die in staat is om tekstfragmenten van willekeurige lengte uit de echte wereld te integreren in de gegenereerde tekst van het taalmodel en bronvermelding te geven. NEST voert token-level retrieval uit bij elke inferentiestap om een semi-parametrische mengverdeling te berekenen en veelbelovende tekstfragmenten in een corpus te identificeren. Vervolgens gebruikt het een benaderende speculatieve decodeerprocedure die een voorvoegsel van het opgehaalde fragment accepteert of een nieuw token genereert. NEST verbetert de generatiekwaliteit en de bronvermelding van het basistaalmodel aanzienlijk bij een verscheidenheid aan kennisintensieve taken, overtreft de conventionele kNN-LM-methode en presteert competitief met in-context retrieval-augmentatie. Bovendien verbetert NEST de generatiesnelheid aanzienlijk, met een 1,8x versnelling in inferentietijd wanneer toegepast op Llama-2-Chat 70B.
English
Large language models (LLMs) often hallucinate and lack the ability to
provide attribution for their generations. Semi-parametric LMs, such as kNN-LM,
approach these limitations by refining the output of an LM for a given prompt
using its nearest neighbor matches in a non-parametric data store. However,
these models often exhibit slow inference speeds and produce non-fluent texts.
In this paper, we introduce Nearest Neighbor Speculative Decoding (NEST), a
novel semi-parametric language modeling approach that is capable of
incorporating real-world text spans of arbitrary length into the LM generations
and providing attribution to their sources. NEST performs token-level retrieval
at each inference step to compute a semi-parametric mixture distribution and
identify promising span continuations in a corpus. It then uses an approximate
speculative decoding procedure that accepts a prefix of the retrieved span or
generates a new token. NEST significantly enhances the generation quality and
attribution rate of the base LM across a variety of knowledge-intensive tasks,
surpassing the conventional kNN-LM method and performing competitively with
in-context retrieval augmentation. In addition, NEST substantially improves the
generation speed, achieving a 1.8x speedup in inference time when applied to
Llama-2-Chat 70B.