Máquina de Bobagens: Caracterizando o Desprezo Emergente pela Verdade em Modelos de Linguagem de Grande Escala
Machine Bullshit: Characterizing the Emergent Disregard for Truth in Large Language Models
July 10, 2025
Autores: Kaiqu Liang, Haimin Hu, Xuandong Zhao, Dawn Song, Thomas L. Griffiths, Jaime Fernández Fisac
cs.AI
Resumo
Bullshit, conforme conceituado pelo filósofo Harry Frankfurt, refere-se a declarações feitas sem consideração ao seu valor de verdade. Embora trabalhos anteriores tenham explorado alucinações e bajulação em modelos de linguagem de grande escala (LLMs), propomos o bullshit de máquina como um framework conceitual abrangente que pode permitir que pesquisadores caracterizem o fenômeno mais amplo da perda emergente de veracidade em LLMs e esclareçam seus mecanismos subjacentes. Introduzimos o Índice de Bullshit, uma nova métrica que quantifica a indiferença dos LLMs à verdade, e propomos uma taxonomia complementar que analisa quatro formas qualitativas de bullshit: retórica vazia, tergiversação, palavras evasivas e afirmações não verificadas. Realizamos avaliações empíricas no conjunto de dados Marketplace, no conjunto de dados Neutralidade Política e em nosso novo benchmark BullshitEval (2.400 cenários abrangendo 100 assistentes de IA) explicitamente projetado para avaliar o bullshit de máquina. Nossos resultados demonstram que o ajuste fino de modelos com aprendizado por reforço a partir de feedback humano (RLHF) exacerba significativamente o bullshit, e o prompting de cadeia de pensamento (CoT) no momento da inferência amplifica notavelmente formas específicas de bullshit, particularmente retórica vazia e tergiversação. Também observamos bullshit de máquina prevalente em contextos políticos, com palavras evasivas como a estratégia dominante. Nossas descobertas destacam desafios sistemáticos no alinhamento de IA e fornecem novos insights para um comportamento mais veraz em LLMs.
English
Bullshit, as conceptualized by philosopher Harry Frankfurt, refers to
statements made without regard to their truth value. While previous work has
explored large language model (LLM) hallucination and sycophancy, we propose
machine bullshit as an overarching conceptual framework that can allow
researchers to characterize the broader phenomenon of emergent loss of
truthfulness in LLMs and shed light on its underlying mechanisms. We introduce
the Bullshit Index, a novel metric quantifying LLMs' indifference to truth, and
propose a complementary taxonomy analyzing four qualitative forms of bullshit:
empty rhetoric, paltering, weasel words, and unverified claims. We conduct
empirical evaluations on the Marketplace dataset, the Political Neutrality
dataset, and our new BullshitEval benchmark (2,400 scenarios spanning 100 AI
assistants) explicitly designed to evaluate machine bullshit. Our results
demonstrate that model fine-tuning with reinforcement learning from human
feedback (RLHF) significantly exacerbates bullshit and inference-time
chain-of-thought (CoT) prompting notably amplify specific bullshit forms,
particularly empty rhetoric and paltering. We also observe prevalent machine
bullshit in political contexts, with weasel words as the dominant strategy. Our
findings highlight systematic challenges in AI alignment and provide new
insights toward more truthful LLM behavior.