확률적 혼돈: 왜 결정론적 추론이 인공 인지의 생명을 끊고 분포적 변동성이 그 심장박동인가
Stochastic CHAOS: Why Deterministic Inference Kills, and Distributional Variability Is the Heartbeat of Artifical Cognition
January 12, 2026
저자: Tanmay Joshi, Shourya Aggarwal, Anusa Saha, Aadi Pandey, Shreyash Dhoot, Vighnesh Rai, Raxit Goswami, Aman Chadha, Vinija Jain, Amitava Das
cs.AI
초록
결정론적 추론은 고전적 소프트웨어에서 안심시키는 이상이다: 동일한 프로그램에 동일한 입력을 주면 항상 동일한 출력이 나와야 한다. 대규모 언어 모델이 실제 환경에 배포되면서, 이 이상이 추론 스택에 그대로 도입되었다. Thinking Machines Lab의 최근 연구는 LLM 추론에서의 비결정론을 상세히 분석하며, 배치-불변 커널과 결정론적 어텐션이 비트 단위 동일 출력을 어떻게 강제하는지 보여주고, 재현성과 기업 신뢰성의 전제 조건으로 결정론적 추론을 위치시켰다.
본 논문에서는 반대 입장을 취한다. 우리는 LLM의 경우 결정론적 추론이 발전을 저해한다고 주장한다. 이는 불확실성을 모델링하는 능력을 죽이고, 창발적 능력을 억제하며, 추론을 단일한 취약한 경로로 축소시키고, 꼬리 위험을 숨김으로써 안전성 정렬을 약화시킨다. LLM은 고정된 함수가 아닌, 출력에 대한 조건부 분포를 구현한다. 이러한 분포를 단일한 표준 완성문으로 축소하는 것은 안심시키는 것처럼 보일 수 있지만, 인공 인지의 핵심 속성들을 체계적으로 은폐한다. 우리는 대신 확률적 CHAOS를 주창하며, 분포적 변동성을 측정하고 통제해야 할 신호로 간주한다.
실증적으로, 우리는 결정론적 추론이 체계적으로 오해를 불러온다는 것을 보여준다. 단일 샘플 결정론적 평가는 역량과 취약성을 모두 과소평가하며, 패러프레이즈와 노이즈 하에서의 실패 확률을 가린다. 창발적 능력과 관련된 위상과 같은 전환은 탐욕적 디코딩 하에서 사라진다. 다중 경로 추론은 결정론적 백본에 강제될 때 저하되어 정확도와 진단적 통찰력을 감소시킨다. 마지막으로, 결정론적 평가는 다중 샘플 평가에서만 나타나는 희귀하지만 위험한 행동을 숨김으로써 안전 위험을 과소평가한다.
English
Deterministic inference is a comforting ideal in classical software: the same program on the same input should always produce the same output. As large language models move into real-world deployment, this ideal has been imported wholesale into inference stacks. Recent work from the Thinking Machines Lab has presented a detailed analysis of nondeterminism in LLM inference, showing how batch-invariant kernels and deterministic attention can enforce bitwise-identical outputs, positioning deterministic inference as a prerequisite for reproducibility and enterprise reliability.
In this paper, we take the opposite stance. We argue that, for LLMs, deterministic inference kills. It kills the ability to model uncertainty, suppresses emergent abilities, collapses reasoning into a single brittle path, and weakens safety alignment by hiding tail risks. LLMs implement conditional distributions over outputs, not fixed functions. Collapsing these distributions to a single canonical completion may appear reassuring, but it systematically conceals properties central to artificial cognition. We instead advocate Stochastic CHAOS, treating distributional variability as a signal to be measured and controlled.
Empirically, we show that deterministic inference is systematically misleading. Single-sample deterministic evaluation underestimates both capability and fragility, masking failure probability under paraphrases and noise. Phase-like transitions associated with emergent abilities disappear under greedy decoding. Multi-path reasoning degrades when forced onto deterministic backbones, reducing accuracy and diagnostic insight. Finally, deterministic evaluation underestimates safety risk by hiding rare but dangerous behaviors that appear only under multi-sample evaluation.