確率的カオス:なぜ決定論的推論は人工知能を殺し、分布的多様性が人工認知の鼓動なのか
Stochastic CHAOS: Why Deterministic Inference Kills, and Distributional Variability Is the Heartbeat of Artifical Cognition
January 12, 2026
著者: Tanmay Joshi, Shourya Aggarwal, Anusa Saha, Aadi Pandey, Shreyash Dhoot, Vighnesh Rai, Raxit Goswami, Aman Chadha, Vinija Jain, Amitava Das
cs.AI
要旨
確定的推論は、古典的ソフトウェアにおける心地よい理想である。同じプログラムに同じ入力を与えれば、常に同じ出力が得られるべきだという考え方だ。大規模言語モデルが実世界に展開されるにつれ、この理想は推論スタックにそのまま輸入されてきた。Thinking Machines Labによる最近の研究は、LLM推論における非決定性の詳細な分析を示し、バッチ不変カーネルと決定論的アテンションがビット単位で同一の出力を保証する方法を提示し、再現性と企業レベルの信頼性の前提条件として確定的推論を位置づけた。
本論文では、我々は正反対の立場をとる。LLMにおいて、確定的推論は「殺す」ものだと主張する。それは不確実性をモデル化する能力を殺し、創発能力を抑制し、推論を単一の脆い経路に収束させ、稀な危険リスクを隠すことで安全性調整を弱体化させる。LLMは固定された関数ではなく、出力に対する条件付き分布を実装するのである。これらの分布を単一の正規の生成結果に収束させることは、一見安心感を与えるかもしれないが、人工的認知の中核的特性を体系的に隠蔽してしまう。我々は代わりに、分布的変動を計測し制御すべき信号として扱う「Stochastic CHAOS」を提唱する。
実証的に、確定的推論が体系的に誤解を招くことを示す。単一サンプルによる確定的評価は、能力と脆弱性の両方を過小評価し、言い換えやノイズの下での故障確率を隠蔽する。創発能力に関連する相転移的な現象は、貪欲デコーディングの下では消失する。確定的な基盤に強制されると、複数経路による推論は劣化し、精度と診断的な洞察力が減少する。最後に、確定的評価は、複数サンプル評価でのみ現れる稀だが危険な振る舞いを隠すことで、安全リスクを過小評価する。
English
Deterministic inference is a comforting ideal in classical software: the same program on the same input should always produce the same output. As large language models move into real-world deployment, this ideal has been imported wholesale into inference stacks. Recent work from the Thinking Machines Lab has presented a detailed analysis of nondeterminism in LLM inference, showing how batch-invariant kernels and deterministic attention can enforce bitwise-identical outputs, positioning deterministic inference as a prerequisite for reproducibility and enterprise reliability.
In this paper, we take the opposite stance. We argue that, for LLMs, deterministic inference kills. It kills the ability to model uncertainty, suppresses emergent abilities, collapses reasoning into a single brittle path, and weakens safety alignment by hiding tail risks. LLMs implement conditional distributions over outputs, not fixed functions. Collapsing these distributions to a single canonical completion may appear reassuring, but it systematically conceals properties central to artificial cognition. We instead advocate Stochastic CHAOS, treating distributional variability as a signal to be measured and controlled.
Empirically, we show that deterministic inference is systematically misleading. Single-sample deterministic evaluation underestimates both capability and fragility, masking failure probability under paraphrases and noise. Phase-like transitions associated with emergent abilities disappear under greedy decoding. Multi-path reasoning degrades when forced onto deterministic backbones, reducing accuracy and diagnostic insight. Finally, deterministic evaluation underestimates safety risk by hiding rare but dangerous behaviors that appear only under multi-sample evaluation.