ChatPaper.aiChatPaper

Les personas comme moyen de modéliser la véracité dans les modèles de langage

Personas as a Way to Model Truthfulness in Language Models

October 27, 2023
papers.authors: Nitish Joishi, Javier Rando, Abulhair Saparov, Najoung Kim, He He
cs.AI

papers.abstract

Les grands modèles de langage sont entraînés sur de vastes quantités de texte provenant d'Internet, qui contiennent à la fois des informations factuelles et trompeuses sur le monde. Les modèles de langage peuvent-ils distinguer la vérité du mensonge dans ces données contradictoires ? En développant l'idée que les LLM peuvent modéliser différents agents produisant les corpus, nous émettons l'hypothèse qu'ils peuvent regrouper les textes véridiques en modélisant une persona véridique : un groupe d'agents susceptibles de produire des textes véridiques et partageant des caractéristiques similaires. Par exemple, des sources fiables comme Wikipédia et Science utilisent généralement des styles d'écriture formels et font des affirmations cohérentes. En modélisant cette persona, les LLM peuvent généraliser la véracité au-delà des contextes spécifiques dans lesquels chaque agent a généré le texte d'entraînement. Par exemple, le modèle peut déduire que l'agent "Wikipédia" se comportera de manière véridique sur des sujets qui n'ont été générés que par "Science", car ils partagent une persona. Nous montrons d'abord des preuves de l'hypothèse de la persona via deux observations : (1) nous pouvons sonder si la réponse d'un modèle sera véridique avant qu'elle ne soit générée ; (2) l'affinage d'un modèle sur un ensemble de faits améliore sa véracité sur des sujets non vus. Ensuite, en utilisant l'arithmétique comme environnement synthétique, nous montrons que les modèles de langage peuvent séparer les affirmations vraies et fausses, et généraliser la véracité entre les agents ; mais seulement si les agents dans les données d'entraînement partagent un processus génératif véridique permettant la création d'une persona véridique. Globalement, nos résultats suggèrent que les modèles peuvent exploiter des structures hiérarchiques dans les données pour apprendre des concepts abstraits comme la véracité.
English
Large Language Models are trained on vast amounts of text from the internet, which contains both factual and misleading information about the world. Can language models discern truth from falsehood in this contradicting data? Expanding on the view that LLMs can model different agents producing the corpora, we hypothesize that they can cluster truthful text by modeling a truthful persona: a group of agents that are likely to produce truthful text and share similar features. For example, trustworthy sources like Wikipedia and Science usually use formal writing styles and make consistent claims. By modeling this persona, LLMs can generalize truthfulness beyond the specific contexts in which each agent generated the training text. For example, the model can infer that the agent "Wikipedia" will behave truthfully on topics that were only generated by "Science" because they share a persona. We first show evidence for the persona hypothesis via two observations: (1) we can probe whether a model's answer will be truthful before it is generated; (2) finetuning a model on a set of facts improves its truthfulness on unseen topics. Next, using arithmetics as a synthetic environment, we show that language models can separate true and false statements, and generalize truthfulness across agents; but only if agents in the training data share a truthful generative process that enables the creation of a truthful persona. Overall, our findings suggest that models can exploit hierarchical structures in the data to learn abstract concepts like truthfulness.
PDF51December 15, 2024