ChatPaper.aiChatPaper

지식 그래프에서 언어 모델을 훈련하는 방법: 환각과 그 탐지 가능성에 대한 통찰력

Training Language Models on the Knowledge Graph: Insights on Hallucinations and Their Detectability

August 14, 2024
저자: Jiri Hron, Laura Culp, Gamaleldin Elsayed, Rosanne Liu, Ben Adlam, Maxwell Bileschi, Bernd Bohnet, JD Co-Reyes, Noah Fiedel, C. Daniel Freeman, Izzeddin Gur, Kathleen Kenealy, Jaehoon Lee, Peter J. Liu, Gaurav Mishra, Igor Mordatch, Azade Nova, Roman Novak, Aaron Parisi, Jeffrey Pennington, Alex Rizkowsky, Isabelle Simpson, Hanie Sedghi, Jascha Sohl-dickstein, Kevin Swersky, Sharad Vikram, Tris Warkentin, Lechao Xiao, Kelvin Xu, Jasper Snoek, Simon Kornblith
cs.AI

초록

언어 모델(LMs)의 여러 기능은 훈련 예산이 증가함에 따라 향상되지만, 규모가 환각에 미치는 영향은 아직 완전히 이해되지 않았다. 환각은 여러 형태로 나타나며 보편적으로 인정되는 정의가 없다. 따라서 우리는 훈련 세트에 정답이 말 그대로 포함된 환각만을 연구 대상으로 삼는다. 훈련 데이터 콘텐츠를 완전히 제어하기 위해 우리는 지식 그래프(KG) 기반 데이터셋을 구축하고, 이를 사용하여 점점 더 큰 LMs 집합을 훈련시킨다. 우리는 고정된 데이터셋에 대해, 더 크고 더 오랫동안 훈련된 LMs일수록 환각이 적어진다는 것을 발견했다. 그러나 훈련 데이터의 5% 이하에서 환각을 유발하려면 Hoffmann 등(2022)이 최적으로 보고한 것보다 한 차원 큰 모델과 따라서 한 차원 더 많은 컴퓨팅 자원이 필요하다. 이러한 비용 문제로 인해 우리는 환각 탐지기가 규모에 어떻게 의존하는지 연구한다. 고정된 LM의 출력에서 탐지기 크기가 성능을 향상시키는 것을 볼 수 있지만, LM의 규모와 그 환각의 탐지 가능성 사이에 역상관 관계를 발견했다.
English
While many capabilities of language models (LMs) improve with increased training budget, the influence of scale on hallucinations is not yet fully understood. Hallucinations come in many forms, and there is no universally accepted definition. We thus focus on studying only those hallucinations where a correct answer appears verbatim in the training set. To fully control the training data content, we construct a knowledge graph (KG)-based dataset, and use it to train a set of increasingly large LMs. We find that for a fixed dataset, larger and longer-trained LMs hallucinate less. However, hallucinating on leq5% of the training data requires an order of magnitude larger model, and thus an order of magnitude more compute, than Hoffmann et al. (2022) reported was optimal. Given this costliness, we study how hallucination detectors depend on scale. While we see detector size improves performance on fixed LM's outputs, we find an inverse relationship between the scale of the LM and the detectability of its hallucinations.

Summary

AI-Generated Summary

PDF162November 26, 2024