Des boucles aux erreurs : Comportements de repli des modèles de langage face à l'incertitude

papers.abstract

Les grands modèles de langage (LLMs) manifestent souvent des comportements indésirables, tels que des hallucinations et des répétitions de séquences. Nous proposons de considérer ces comportements comme des mécanismes de repli que les modèles adoptent face à l'incertitude, et d'étudier les liens entre eux. Nous catégorisons les comportements de repli — répétitions de séquences, textes dégénérés et hallucinations — et les analysons de manière approfondie dans des modèles d'une même famille qui diffèrent par le nombre de tokens de pré-entraînement, la quantité de paramètres ou l'inclusion d'un entraînement à l'obéissance d'instructions. Nos expériences révèlent un ordre clair et cohérent des comportements de repli, quelle que soit l'axe considéré : plus un LLM est avancé (c'est-à-dire entraîné sur plus de tokens, doté de plus de paramètres ou ajusté pour suivre des instructions), plus son comportement de repli évolue des répétitions de séquences vers des textes dégénérés, puis vers des hallucinations. De plus, le même ordre est observé tout au long d'une seule génération, même pour les modèles les plus performants ; à mesure que l'incertitude augmente, les modèles passent de la génération d'hallucinations à la production de textes dégénérés, puis à des répétitions de séquences. Enfin, nous montrons que si les techniques de décodage courantes, comme l'échantillonnage aléatoire, peuvent atténuer certains comportements indésirables comme les répétitions de séquences, elles augmentent les hallucinations, plus difficiles à détecter.

English

Large language models (LLMs) often exhibit undesirable behaviors, such as hallucinations and sequence repetitions. We propose to view these behaviors as fallbacks that models exhibit under uncertainty, and investigate the connection between them. We categorize fallback behaviors -- sequence repetitions, degenerate text, and hallucinations -- and extensively analyze them in models from the same family that differ by the amount of pretraining tokens, parameter count, or the inclusion of instruction-following training. Our experiments reveal a clear and consistent ordering of fallback behaviors, across all these axes: the more advanced an LLM is (i.e., trained on more tokens, has more parameters, or instruction-tuned), its fallback behavior shifts from sequence repetitions, to degenerate text, and then to hallucinations. Moreover, the same ordering is observed throughout a single generation, even for the best-performing models; as uncertainty increases, models shift from generating hallucinations to producing degenerate text and then sequence repetitions. Lastly, we demonstrate that while common decoding techniques, such as random sampling, might alleviate some unwanted behaviors like sequence repetitions, they increase harder-to-detect hallucinations.

Des boucles aux erreurs : Comportements de repli des modèles de langage face à l'incertitude

From Loops to Oops: Fallback Behaviors of Language Models Under Uncertainty

papers.abstract

Support