ChatPaper.aiChatPaper

Las personas como método para modelar la veracidad en los modelos de lenguaje.

Personas as a Way to Model Truthfulness in Language Models

October 27, 2023
Autores: Nitish Joishi, Javier Rando, Abulhair Saparov, Najoung Kim, He He
cs.AI

Resumen

Los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) se entrenan con grandes cantidades de texto proveniente de internet, el cual contiene tanto información factual como engañosa sobre el mundo. ¿Pueden estos modelos de lenguaje discernir la verdad de la falsedad en estos datos contradictorios? Partiendo de la idea de que los LLMs pueden modelar diferentes agentes que producen los corpus, planteamos la hipótesis de que pueden agrupar texto veraz al modelar una persona veraz: un grupo de agentes que probablemente produzcan texto veraz y compartan características similares. Por ejemplo, fuentes confiables como Wikipedia y Science suelen utilizar estilos de escritura formal y hacer afirmaciones consistentes. Al modelar esta persona, los LLMs pueden generalizar la veracidad más allá de los contextos específicos en los que cada agente generó el texto de entrenamiento. Por ejemplo, el modelo puede inferir que el agente "Wikipedia" se comportará de manera veraz en temas que solo fueron generados por "Science", ya que comparten una persona. Primero, mostramos evidencia de la hipótesis de la persona mediante dos observaciones: (1) podemos sondear si la respuesta de un modelo será veraz antes de que se genere; (2) ajustar un modelo en un conjunto de hechos mejora su veracidad en temas no vistos. Luego, utilizando la aritmética como un entorno sintético, demostramos que los modelos de lenguaje pueden separar afirmaciones verdaderas y falsas, y generalizar la veracidad entre agentes; pero solo si los agentes en los datos de entrenamiento comparten un proceso generativo veraz que permita la creación de una persona veraz. En general, nuestros hallazgos sugieren que los modelos pueden explotar estructuras jerárquicas en los datos para aprender conceptos abstractos como la veracidad.
English
Large Language Models are trained on vast amounts of text from the internet, which contains both factual and misleading information about the world. Can language models discern truth from falsehood in this contradicting data? Expanding on the view that LLMs can model different agents producing the corpora, we hypothesize that they can cluster truthful text by modeling a truthful persona: a group of agents that are likely to produce truthful text and share similar features. For example, trustworthy sources like Wikipedia and Science usually use formal writing styles and make consistent claims. By modeling this persona, LLMs can generalize truthfulness beyond the specific contexts in which each agent generated the training text. For example, the model can infer that the agent "Wikipedia" will behave truthfully on topics that were only generated by "Science" because they share a persona. We first show evidence for the persona hypothesis via two observations: (1) we can probe whether a model's answer will be truthful before it is generated; (2) finetuning a model on a set of facts improves its truthfulness on unseen topics. Next, using arithmetics as a synthetic environment, we show that language models can separate true and false statements, and generalize truthfulness across agents; but only if agents in the training data share a truthful generative process that enables the creation of a truthful persona. Overall, our findings suggest that models can exploit hierarchical structures in the data to learn abstract concepts like truthfulness.
PDF51December 15, 2024