Des boucles aux erreurs : Comportements de repli des modèles de langage face à l'incertitude
From Loops to Oops: Fallback Behaviors of Language Models Under Uncertainty
July 8, 2024
Auteurs: Maor Ivgi, Ori Yoran, Jonathan Berant, Mor Geva
cs.AI
Résumé
Les grands modèles de langage (LLMs) manifestent souvent des comportements indésirables, tels que des hallucinations et des répétitions de séquences. Nous proposons de considérer ces comportements comme des mécanismes de repli que les modèles adoptent face à l'incertitude, et d'étudier les liens entre eux. Nous catégorisons les comportements de repli — répétitions de séquences, textes dégénérés et hallucinations — et les analysons de manière approfondie dans des modèles d'une même famille qui diffèrent par le nombre de tokens de pré-entraînement, la quantité de paramètres ou l'inclusion d'un entraînement à l'obéissance d'instructions. Nos expériences révèlent un ordre clair et cohérent des comportements de repli, quelle que soit l'axe considéré : plus un LLM est avancé (c'est-à-dire entraîné sur plus de tokens, doté de plus de paramètres ou ajusté pour suivre des instructions), plus son comportement de repli évolue des répétitions de séquences vers des textes dégénérés, puis vers des hallucinations. De plus, le même ordre est observé tout au long d'une seule génération, même pour les modèles les plus performants ; à mesure que l'incertitude augmente, les modèles passent de la génération d'hallucinations à la production de textes dégénérés, puis à des répétitions de séquences. Enfin, nous montrons que si les techniques de décodage courantes, comme l'échantillonnage aléatoire, peuvent atténuer certains comportements indésirables comme les répétitions de séquences, elles augmentent les hallucinations, plus difficiles à détecter.
English
Large language models (LLMs) often exhibit undesirable behaviors, such as
hallucinations and sequence repetitions. We propose to view these behaviors as
fallbacks that models exhibit under uncertainty, and investigate the connection
between them. We categorize fallback behaviors -- sequence repetitions,
degenerate text, and hallucinations -- and extensively analyze them in models
from the same family that differ by the amount of pretraining tokens, parameter
count, or the inclusion of instruction-following training. Our experiments
reveal a clear and consistent ordering of fallback behaviors, across all these
axes: the more advanced an LLM is (i.e., trained on more tokens, has more
parameters, or instruction-tuned), its fallback behavior shifts from sequence
repetitions, to degenerate text, and then to hallucinations. Moreover, the same
ordering is observed throughout a single generation, even for the
best-performing models; as uncertainty increases, models shift from generating
hallucinations to producing degenerate text and then sequence repetitions.
Lastly, we demonstrate that while common decoding techniques, such as random
sampling, might alleviate some unwanted behaviors like sequence repetitions,
they increase harder-to-detect hallucinations.Summary
AI-Generated Summary