ChatPaper.aiChatPaper

Entraînement des modèles de langage sur le graphe de connaissances : Perspectives sur les hallucinations et leur détectabilité

Training Language Models on the Knowledge Graph: Insights on Hallucinations and Their Detectability

August 14, 2024
Auteurs: Jiri Hron, Laura Culp, Gamaleldin Elsayed, Rosanne Liu, Ben Adlam, Maxwell Bileschi, Bernd Bohnet, JD Co-Reyes, Noah Fiedel, C. Daniel Freeman, Izzeddin Gur, Kathleen Kenealy, Jaehoon Lee, Peter J. Liu, Gaurav Mishra, Igor Mordatch, Azade Nova, Roman Novak, Aaron Parisi, Jeffrey Pennington, Alex Rizkowsky, Isabelle Simpson, Hanie Sedghi, Jascha Sohl-dickstein, Kevin Swersky, Sharad Vikram, Tris Warkentin, Lechao Xiao, Kelvin Xu, Jasper Snoek, Simon Kornblith
cs.AI

Résumé

Alors que de nombreuses capacités des modèles de langage (LMs) s'améliorent avec l'augmentation du budget d'entraînement, l'influence de l'échelle sur les hallucinations n'est pas encore pleinement comprise. Les hallucinations se présentent sous de nombreuses formes, et il n'existe pas de définition universellement acceptée. Nous nous concentrons donc sur l'étude des hallucinations où une réponse correcte apparaît textuellement dans l'ensemble d'entraînement. Pour contrôler entièrement le contenu des données d'entraînement, nous construisons un ensemble de données basé sur un graphe de connaissances (KG), et l'utilisons pour entraîner une série de LMs de taille croissante. Nous constatons que, pour un ensemble de données fixe, les LMs plus grands et entraînés plus longtemps hallucinent moins. Cependant, halluciner sur ≤5 % des données d'entraînement nécessite un modèle d'un ordre de grandeur plus grand, et donc un ordre de grandeur plus de calcul, que ce que Hoffmann et al. (2022) ont rapporté comme étant optimal. Compte tenu de ce coût élevé, nous étudions comment les détecteurs d'hallucinations dépendent de l'échelle. Bien que nous observions que la taille du détecteur améliore les performances sur les sorties d'un LM fixe, nous trouvons une relation inverse entre l'échelle du LM et la détectabilité de ses hallucinations.
English
While many capabilities of language models (LMs) improve with increased training budget, the influence of scale on hallucinations is not yet fully understood. Hallucinations come in many forms, and there is no universally accepted definition. We thus focus on studying only those hallucinations where a correct answer appears verbatim in the training set. To fully control the training data content, we construct a knowledge graph (KG)-based dataset, and use it to train a set of increasingly large LMs. We find that for a fixed dataset, larger and longer-trained LMs hallucinate less. However, hallucinating on leq5% of the training data requires an order of magnitude larger model, and thus an order of magnitude more compute, than Hoffmann et al. (2022) reported was optimal. Given this costliness, we study how hallucination detectors depend on scale. While we see detector size improves performance on fixed LM's outputs, we find an inverse relationship between the scale of the LM and the detectability of its hallucinations.

Summary

AI-Generated Summary

PDF162November 26, 2024