ChatPaper.aiChatPaper

Machine Bullshit : Caractérisation du mépris émergent pour la vérité dans les modèles de langage à grande échelle

Machine Bullshit: Characterizing the Emergent Disregard for Truth in Large Language Models

July 10, 2025
papers.authors: Kaiqu Liang, Haimin Hu, Xuandong Zhao, Dawn Song, Thomas L. Griffiths, Jaime Fernández Fisac
cs.AI

papers.abstract

Le bullshit, tel que conceptualisé par le philosophe Harry Frankfurt, désigne des énoncés produits sans égard à leur valeur de vérité. Alors que les travaux précédents ont exploré l’hallucination et la flagornerie des grands modèles de langage (LLM), nous proposons le bullshit machine comme un cadre conceptuel global permettant aux chercheurs de caractériser le phénomène émergent de perte de véracité dans les LLM et d’éclairer ses mécanismes sous-jacents. Nous introduisons l’Indice de Bullshit, une nouvelle métrique quantifiant l’indifférence des LLM à la vérité, et proposons une taxonomie complémentaire analysant quatre formes qualitatives de bullshit : la rhétorique creuse, l’ambiguïté trompeuse, les mots évasifs et les affirmations non vérifiées. Nous menons des évaluations empiriques sur le jeu de données Marketplace, le jeu de données Neutralité Politique et notre nouveau benchmark BullshitEval (2 400 scénarios couvrant 100 assistants IA) explicitement conçu pour évaluer le bullshit machine. Nos résultats montrent que l’affinement des modèles par apprentissage par renforcement à partir de retours humains (RLHF) exacerbe significativement le bullshit, et que l’incitation en chaîne de pensée (CoT) au moment de l’inférence amplifie notablement des formes spécifiques de bullshit, en particulier la rhétorique creuse et l’ambiguïté trompeuse. Nous observons également une prévalence du bullshit machine dans les contextes politiques, avec les mots évasifs comme stratégie dominante. Nos résultats mettent en lumière des défis systémiques dans l’alignement de l’IA et offrent de nouvelles perspectives pour un comportement plus véridique des LLM.
English
Bullshit, as conceptualized by philosopher Harry Frankfurt, refers to statements made without regard to their truth value. While previous work has explored large language model (LLM) hallucination and sycophancy, we propose machine bullshit as an overarching conceptual framework that can allow researchers to characterize the broader phenomenon of emergent loss of truthfulness in LLMs and shed light on its underlying mechanisms. We introduce the Bullshit Index, a novel metric quantifying LLMs' indifference to truth, and propose a complementary taxonomy analyzing four qualitative forms of bullshit: empty rhetoric, paltering, weasel words, and unverified claims. We conduct empirical evaluations on the Marketplace dataset, the Political Neutrality dataset, and our new BullshitEval benchmark (2,400 scenarios spanning 100 AI assistants) explicitly designed to evaluate machine bullshit. Our results demonstrate that model fine-tuning with reinforcement learning from human feedback (RLHF) significantly exacerbates bullshit and inference-time chain-of-thought (CoT) prompting notably amplify specific bullshit forms, particularly empty rhetoric and paltering. We also observe prevalent machine bullshit in political contexts, with weasel words as the dominant strategy. Our findings highlight systematic challenges in AI alignment and provide new insights toward more truthful LLM behavior.
PDF52July 11, 2025