ChatPaper.aiChatPaper

Entrenamiento de Modelos de Lenguaje en el Grafo del Conocimiento: Perspectivas sobre Alucinaciones y su Detectabilidad

Training Language Models on the Knowledge Graph: Insights on Hallucinations and Their Detectability

August 14, 2024
Autores: Jiri Hron, Laura Culp, Gamaleldin Elsayed, Rosanne Liu, Ben Adlam, Maxwell Bileschi, Bernd Bohnet, JD Co-Reyes, Noah Fiedel, C. Daniel Freeman, Izzeddin Gur, Kathleen Kenealy, Jaehoon Lee, Peter J. Liu, Gaurav Mishra, Igor Mordatch, Azade Nova, Roman Novak, Aaron Parisi, Jeffrey Pennington, Alex Rizkowsky, Isabelle Simpson, Hanie Sedghi, Jascha Sohl-dickstein, Kevin Swersky, Sharad Vikram, Tris Warkentin, Lechao Xiao, Kelvin Xu, Jasper Snoek, Simon Kornblith
cs.AI

Resumen

Si bien muchas capacidades de los modelos de lenguaje (LMs) mejoran con un presupuesto de entrenamiento mayor, la influencia de la escala en las alucinaciones aún no se comprende completamente. Las alucinaciones se presentan en diversas formas, y no hay una definición universalmente aceptada. Por lo tanto, nos centramos en estudiar solo aquellas alucinaciones donde una respuesta correcta aparece textualmente en el conjunto de entrenamiento. Para controlar completamente el contenido de los datos de entrenamiento, construimos un conjunto de datos basado en un grafo de conocimiento (KG) y lo utilizamos para entrenar un conjunto de LMs cada vez más grandes. Descubrimos que, para un conjunto de datos fijo, los LMs más grandes y entrenados durante más tiempo alucinan menos. Sin embargo, alucinar en menos del 5% de los datos de entrenamiento requiere un modelo significativamente más grande, y por lo tanto, un orden de magnitud más de recursos computacionales, de lo que Hoffmann et al. (2022) informaron como óptimo. Dada esta costosidad, estudiamos cómo los detectores de alucinaciones dependen de la escala. Si bien observamos que el tamaño del detector mejora el rendimiento en las salidas de LM fijos, encontramos una relación inversa entre la escala del LM y la capacidad de detectar sus alucinaciones.
English
While many capabilities of language models (LMs) improve with increased training budget, the influence of scale on hallucinations is not yet fully understood. Hallucinations come in many forms, and there is no universally accepted definition. We thus focus on studying only those hallucinations where a correct answer appears verbatim in the training set. To fully control the training data content, we construct a knowledge graph (KG)-based dataset, and use it to train a set of increasingly large LMs. We find that for a fixed dataset, larger and longer-trained LMs hallucinate less. However, hallucinating on leq5% of the training data requires an order of magnitude larger model, and thus an order of magnitude more compute, than Hoffmann et al. (2022) reported was optimal. Given this costliness, we study how hallucination detectors depend on scale. While we see detector size improves performance on fixed LM's outputs, we find an inverse relationship between the scale of the LM and the detectability of its hallucinations.

Summary

AI-Generated Summary

PDF162November 26, 2024