Máquina de Tonterías: Caracterizando el Desprecio Emergente por la Verdad en los Modelos de Lenguaje a Gran Escala
Machine Bullshit: Characterizing the Emergent Disregard for Truth in Large Language Models
July 10, 2025
Autores: Kaiqu Liang, Haimin Hu, Xuandong Zhao, Dawn Song, Thomas L. Griffiths, Jaime Fernández Fisac
cs.AI
Resumen
El concepto de "bullshit", tal como lo conceptualizó el filósofo Harry Frankfurt, se refiere a declaraciones realizadas sin tener en cuenta su valor de verdad. Si bien trabajos anteriores han explorado la alucinación y la adulación en los modelos de lenguaje de gran escala (LLM, por sus siglas en inglés), proponemos el "machine bullshit" como un marco conceptual general que permite a los investigadores caracterizar el fenómeno más amplio de la pérdida emergente de veracidad en los LLM y arrojar luz sobre sus mecanismos subyacentes. Introducimos el Índice de Bullshit, una métrica novedosa que cuantifica la indiferencia de los LLM hacia la verdad, y proponemos una taxonomía complementaria que analiza cuatro formas cualitativas de bullshit: retórica vacía, evasivas, palabras ambiguas y afirmaciones no verificadas. Realizamos evaluaciones empíricas en el conjunto de datos Marketplace, el conjunto de datos de Neutralidad Política y nuestro nuevo benchmark BullshitEval (2,400 escenarios que abarcan 100 asistentes de IA), diseñado explícitamente para evaluar el machine bullshit. Nuestros resultados demuestran que el ajuste fino de los modelos con aprendizaje por refuerzo a partir de retroalimentación humana (RLHF, por sus siglas en inglés) exacerba significativamente el bullshit, y que las indicaciones de cadena de pensamiento (CoT, por sus siglas en inglés) en tiempo de inferencia amplifican notablemente formas específicas de bullshit, particularmente la retórica vacía y las evasivas. También observamos un bullshit prevalente en contextos políticos, con las palabras ambiguas como la estrategia dominante. Nuestros hallazgos resaltan desafíos sistemáticos en la alineación de la IA y proporcionan nuevas perspectivas hacia un comportamiento más veraz en los LLM.
English
Bullshit, as conceptualized by philosopher Harry Frankfurt, refers to
statements made without regard to their truth value. While previous work has
explored large language model (LLM) hallucination and sycophancy, we propose
machine bullshit as an overarching conceptual framework that can allow
researchers to characterize the broader phenomenon of emergent loss of
truthfulness in LLMs and shed light on its underlying mechanisms. We introduce
the Bullshit Index, a novel metric quantifying LLMs' indifference to truth, and
propose a complementary taxonomy analyzing four qualitative forms of bullshit:
empty rhetoric, paltering, weasel words, and unverified claims. We conduct
empirical evaluations on the Marketplace dataset, the Political Neutrality
dataset, and our new BullshitEval benchmark (2,400 scenarios spanning 100 AI
assistants) explicitly designed to evaluate machine bullshit. Our results
demonstrate that model fine-tuning with reinforcement learning from human
feedback (RLHF) significantly exacerbates bullshit and inference-time
chain-of-thought (CoT) prompting notably amplify specific bullshit forms,
particularly empty rhetoric and paltering. We also observe prevalent machine
bullshit in political contexts, with weasel words as the dominant strategy. Our
findings highlight systematic challenges in AI alignment and provide new
insights toward more truthful LLM behavior.