Le Personas come Metodo per Modellare la Veridicità nei Modelli Linguistici

Abstract

I Large Language Models vengono addestrati su enormi quantità di testo provenienti da internet, che contiene sia informazioni fattuali che fuorvianti sul mondo. I modelli linguistici sono in grado di distinguere la verità dalla falsità in questi dati contraddittori? Estendendo l'idea che i LLM possano modellare diversi agenti che producono i corpora, ipotizziamo che possano raggruppare testi veritieri modellando una persona veritiera: un gruppo di agenti che hanno maggiori probabilità di produrre testi veritieri e condividono caratteristiche simili. Ad esempio, fonti affidabili come Wikipedia e Science utilizzano solitamente stili di scrittura formali e fanno affermazioni coerenti. Modellando questa persona, i LLM possono generalizzare la veridicità oltre i contesti specifici in cui ogni agente ha generato il testo di addestramento. Ad esempio, il modello può dedurre che l'agente "Wikipedia" si comporterà in modo veritiero su argomenti generati solo da "Science" perché condividono una persona. In primo luogo, mostriamo evidenza dell'ipotesi della persona attraverso due osservazioni: (1) possiamo sondare se la risposta di un modello sarà veritiera prima che venga generata; (2) il fine-tuning di un modello su un insieme di fatti migliora la sua veridicità su argomenti non visti. Successivamente, utilizzando l'aritmetica come ambiente sintetico, dimostriamo che i modelli linguistici possono separare affermazioni vere e false e generalizzare la veridicità tra agenti; ma solo se gli agenti nei dati di addestramento condividono un processo generativo veritiero che consente la creazione di una persona veritiera. Nel complesso, i nostri risultati suggeriscono che i modelli possono sfruttare strutture gerarchiche nei dati per apprendere concetti astratti come la veridicità.

English

Large Language Models are trained on vast amounts of text from the internet, which contains both factual and misleading information about the world. Can language models discern truth from falsehood in this contradicting data? Expanding on the view that LLMs can model different agents producing the corpora, we hypothesize that they can cluster truthful text by modeling a truthful persona: a group of agents that are likely to produce truthful text and share similar features. For example, trustworthy sources like Wikipedia and Science usually use formal writing styles and make consistent claims. By modeling this persona, LLMs can generalize truthfulness beyond the specific contexts in which each agent generated the training text. For example, the model can infer that the agent "Wikipedia" will behave truthfully on topics that were only generated by "Science" because they share a persona. We first show evidence for the persona hypothesis via two observations: (1) we can probe whether a model's answer will be truthful before it is generated; (2) finetuning a model on a set of facts improves its truthfulness on unseen topics. Next, using arithmetics as a synthetic environment, we show that language models can separate true and false statements, and generalize truthfulness across agents; but only if agents in the training data share a truthful generative process that enables the creation of a truthful persona. Overall, our findings suggest that models can exploit hierarchical structures in the data to learn abstract concepts like truthfulness.

Le Personas come Metodo per Modellare la Veridicità nei Modelli Linguistici

Personas as a Way to Model Truthfulness in Language Models

Abstract

Support