Addestramento di Modelli Linguistici su Grafi di Conoscenza: Approfondimenti sulle Allucinazioni e sulla Loro Rilevabilità

Abstract

Mentre molte capacità dei modelli linguistici (LM) migliorano con l'aumento del budget di addestramento, l'influenza della scala sulle allucinazioni non è ancora completamente compresa. Le allucinazioni si presentano in molte forme e non esiste una definizione universalmente accettata. Ci concentriamo quindi sullo studio solo di quelle allucinazioni in cui una risposta corretta appare testualmente nel set di addestramento. Per controllare completamente il contenuto dei dati di addestramento, costruiamo un dataset basato su una knowledge graph (KG) e lo utilizziamo per addestrare una serie di LM progressivamente più grandi. Scopriamo che, per un dataset fisso, LM più grandi e addestrati più a lungo allucinano meno. Tuttavia, allucinare su ≤5% dei dati di addestramento richiede un modello di un ordine di grandezza più grande e, quindi, un ordine di grandezza più elevato di calcolo rispetto a quanto riportato da Hoffmann et al. (2022) come ottimale. Data questa costosità, studiamo come i rilevatori di allucinazioni dipendano dalla scala. Mentre osserviamo che le dimensioni del rilevatore migliorano le prestazioni sugli output di LM fissi, troviamo una relazione inversa tra la scala del LM e la rilevabilità delle sue allucinazioni.

English

While many capabilities of language models (LMs) improve with increased training budget, the influence of scale on hallucinations is not yet fully understood. Hallucinations come in many forms, and there is no universally accepted definition. We thus focus on studying only those hallucinations where a correct answer appears verbatim in the training set. To fully control the training data content, we construct a knowledge graph (KG)-based dataset, and use it to train a set of increasingly large LMs. We find that for a fixed dataset, larger and longer-trained LMs hallucinate less. However, hallucinating on leq5% of the training data requires an order of magnitude larger model, and thus an order of magnitude more compute, than Hoffmann et al. (2022) reported was optimal. Given this costliness, we study how hallucination detectors depend on scale. While we see detector size improves performance on fixed LM's outputs, we find an inverse relationship between the scale of the LM and the detectability of its hallucinations.

Addestramento di Modelli Linguistici su Grafi di Conoscenza: Approfondimenti sulle Allucinazioni e sulla Loro Rilevabilità

Training Language Models on the Knowledge Graph: Insights on Hallucinations and Their Detectability

Abstract

Support