ChatPaper.aiChatPaper

Personas como uma Forma de Modelar a Veracidade em Modelos de Linguagem

Personas as a Way to Model Truthfulness in Language Models

October 27, 2023
Autores: Nitish Joishi, Javier Rando, Abulhair Saparov, Najoung Kim, He He
cs.AI

Resumo

Modelos de Linguagem de Grande Escala (LLMs) são treinados em vastas quantidades de texto da internet, que contêm tanto informações factuais quanto enganosas sobre o mundo. Será que os modelos de linguagem conseguem discernir a verdade da falsidade nesses dados contraditórios? Expandindo a visão de que os LLMs podem modelar diferentes agentes que produzem os corpora, nós hipotetizamos que eles podem agrupar textos verdadeiros ao modelar uma persona verídica: um grupo de agentes que têm maior probabilidade de produzir textos verdadeiros e compartilham características semelhantes. Por exemplo, fontes confiáveis como a Wikipedia e a Science geralmente usam estilos de escrita formal e fazem afirmações consistentes. Ao modelar essa persona, os LLMs podem generalizar a veracidade além dos contextos específicos em que cada agente gerou o texto de treinamento. Por exemplo, o modelo pode inferir que o agente "Wikipedia" se comportará de maneira verídica em tópicos que foram gerados apenas pela "Science", pois eles compartilham uma persona. Primeiro, mostramos evidências para a hipótese da persona por meio de duas observações: (1) podemos sondar se a resposta de um modelo será verdadeira antes de ela ser gerada; (2) ajustar um modelo em um conjunto de fatos melhora sua veracidade em tópicos não vistos. Em seguida, usando aritmética como um ambiente sintético, mostramos que os modelos de linguagem conseguem separar afirmações verdadeiras e falsas e generalizar a veracidade entre agentes; mas apenas se os agentes nos dados de treinamento compartilharem um processo gerativo verídico que permita a criação de uma persona verídica. No geral, nossas descobertas sugerem que os modelos podem explorar estruturas hierárquicas nos dados para aprender conceitos abstratos como a veracidade.
English
Large Language Models are trained on vast amounts of text from the internet, which contains both factual and misleading information about the world. Can language models discern truth from falsehood in this contradicting data? Expanding on the view that LLMs can model different agents producing the corpora, we hypothesize that they can cluster truthful text by modeling a truthful persona: a group of agents that are likely to produce truthful text and share similar features. For example, trustworthy sources like Wikipedia and Science usually use formal writing styles and make consistent claims. By modeling this persona, LLMs can generalize truthfulness beyond the specific contexts in which each agent generated the training text. For example, the model can infer that the agent "Wikipedia" will behave truthfully on topics that were only generated by "Science" because they share a persona. We first show evidence for the persona hypothesis via two observations: (1) we can probe whether a model's answer will be truthful before it is generated; (2) finetuning a model on a set of facts improves its truthfulness on unseen topics. Next, using arithmetics as a synthetic environment, we show that language models can separate true and false statements, and generalize truthfulness across agents; but only if agents in the training data share a truthful generative process that enables the creation of a truthful persona. Overall, our findings suggest that models can exploit hierarchical structures in the data to learn abstract concepts like truthfulness.
PDF51February 8, 2026