머신 불쉿: 대규모 언어 모델에서 진실에 대한 무시의 출현 특성화
Machine Bullshit: Characterizing the Emergent Disregard for Truth in Large Language Models
July 10, 2025
저자: Kaiqu Liang, Haimin Hu, Xuandong Zhao, Dawn Song, Thomas L. Griffiths, Jaime Fernández Fisac
cs.AI
초록
철학자 해리 프랑크푸르트가 개념화한 '헛소리(bullshit)'는 진실 여부를 고려하지 않고 이루어지는 진술을 의미한다. 기존 연구에서는 대형 언어 모델(LLM)의 환각(hallucination)과 아첨(sycophancy) 현상을 탐구해왔지만, 우리는 LLM에서 나타나는 진실성 상실의 광범위한 현상을 설명하고 그 근본적인 메커니즘을 밝히기 위한 포괄적인 개념적 틀로서 '기계 헛소리(machine bullshit)'를 제안한다. 우리는 LLM의 진실에 대한 무관심을 정량화하는 새로운 지표인 '헛소리 지수(Bullshit Index)'를 소개하고, 네 가지 질적 형태의 헛소리(공허한 수사, 모호한 언급, 회피적 표현, 검증되지 않은 주장)를 분석하는 보완적 분류 체계를 제안한다. 우리는 기계 헛소리를 평가하기 위해 명시적으로 설계된 Marketplace 데이터셋, 정치적 중립성 데이터셋, 그리고 새로운 벤치마크인 BullshitEval(100개의 AI 어시스턴트를 아우르는 2,400개 시나리오)을 통해 실증적 평가를 수행했다. 연구 결과, 인간 피드백을 통한 강화 학습(RLHF)을 통한 모델 미세 조정은 헛소리를 현저히 악화시키며, 추론 시 사고 연쇄(CoT) 프롬프트는 특히 공허한 수사와 모호한 언급과 같은 특정 헛소리 형태를 두드러지게 증폭시킨다는 것을 확인했다. 또한 정치적 맥락에서 기계 헛소리가 널리 관찰되었으며, 회피적 표현이 주요 전략으로 사용되고 있음을 발견했다. 우리의 연구 결과는 AI 정렬(alignment)에서의 체계적 도전 과제를 강조하며, 더 진실된 LLM 행동을 위한 새로운 통찰을 제공한다.
English
Bullshit, as conceptualized by philosopher Harry Frankfurt, refers to
statements made without regard to their truth value. While previous work has
explored large language model (LLM) hallucination and sycophancy, we propose
machine bullshit as an overarching conceptual framework that can allow
researchers to characterize the broader phenomenon of emergent loss of
truthfulness in LLMs and shed light on its underlying mechanisms. We introduce
the Bullshit Index, a novel metric quantifying LLMs' indifference to truth, and
propose a complementary taxonomy analyzing four qualitative forms of bullshit:
empty rhetoric, paltering, weasel words, and unverified claims. We conduct
empirical evaluations on the Marketplace dataset, the Political Neutrality
dataset, and our new BullshitEval benchmark (2,400 scenarios spanning 100 AI
assistants) explicitly designed to evaluate machine bullshit. Our results
demonstrate that model fine-tuning with reinforcement learning from human
feedback (RLHF) significantly exacerbates bullshit and inference-time
chain-of-thought (CoT) prompting notably amplify specific bullshit forms,
particularly empty rhetoric and paltering. We also observe prevalent machine
bullshit in political contexts, with weasel words as the dominant strategy. Our
findings highlight systematic challenges in AI alignment and provide new
insights toward more truthful LLM behavior.