ChatPaper.aiChatPaper

Стохастический ХАОС: Почему детерминированный вывод убивает, а распределительная вариабельность — это сердцебиение искусственного познания

Stochastic CHAOS: Why Deterministic Inference Kills, and Distributional Variability Is the Heartbeat of Artifical Cognition

January 12, 2026
Авторы: Tanmay Joshi, Shourya Aggarwal, Anusa Saha, Aadi Pandey, Shreyash Dhoot, Vighnesh Rai, Raxit Goswami, Aman Chadha, Vinija Jain, Amitava Das
cs.AI

Аннотация

Детерминистический вывод — это утешительный идеал в классическом программном обеспечении: одна и та же программа на одних и тех же входных данных всегда должна давать одинаковый результат. По мере того как большие языковые модели внедряются в реальные системы, этот идеал был безоговорочно перенесен в инфраструктуру вывода. Недавнее исследование лаборатории Thinking Machines представило детальный анализ недетерминизма в выводе LLM, показав, как пакетно-инвариантные ядра и детерминистическая функция внимания могут обеспечить побитово идентичные результаты, позиционируя детерминистический вывод как предпосылку воспроизводимости и надежности в корпоративной среде. В данной статье мы занимаем противоположную позицию. Мы утверждаем, что для LLM детерминистический вывод губителен. Он убивает способность моделировать неопределенность, подавляет эмерджентные способности, сводит рассуждения к единственному хрупкому пути и ослабляет безопасность, скрывая риски на "хвостах" распределений. LLM реализуют условные распределения над выходными данными, а не фиксированные функции. Сведение этих распределений к единственной канонической реализации может казаться обнадеживающим, но оно систематически скрывает свойства, центральные для искусственного познания. Вместо этого мы предлагаем подход Stochastic CHAOS, рассматривая вариабельность распределения как сигнал, который следует измерять и контролировать. Эмпирически мы показываем, что детерминистический вывод систематически вводит в заблуждение. Односэмпловая детерминистическая оценка недооценивает как возможности модели, так и ее хрупкость, маскируя вероятность сбоев при парафразах и зашумленных входных данных. Фазоподобные переходы, связанные с эмерджентными способностями, исчезают при жадном декодировании. Многовариантные рассуждения деградируют при насильственном применении детерминистических методов, снижая точность и диагностическую ценность. Наконец, детерминистическая оценка недооценивает риски безопасности, скрывая редкие, но опасные модели поведения, которые проявляются только при многосэмпловой оценке.
English
Deterministic inference is a comforting ideal in classical software: the same program on the same input should always produce the same output. As large language models move into real-world deployment, this ideal has been imported wholesale into inference stacks. Recent work from the Thinking Machines Lab has presented a detailed analysis of nondeterminism in LLM inference, showing how batch-invariant kernels and deterministic attention can enforce bitwise-identical outputs, positioning deterministic inference as a prerequisite for reproducibility and enterprise reliability. In this paper, we take the opposite stance. We argue that, for LLMs, deterministic inference kills. It kills the ability to model uncertainty, suppresses emergent abilities, collapses reasoning into a single brittle path, and weakens safety alignment by hiding tail risks. LLMs implement conditional distributions over outputs, not fixed functions. Collapsing these distributions to a single canonical completion may appear reassuring, but it systematically conceals properties central to artificial cognition. We instead advocate Stochastic CHAOS, treating distributional variability as a signal to be measured and controlled. Empirically, we show that deterministic inference is systematically misleading. Single-sample deterministic evaluation underestimates both capability and fragility, masking failure probability under paraphrases and noise. Phase-like transitions associated with emergent abilities disappear under greedy decoding. Multi-path reasoning degrades when forced onto deterministic backbones, reducing accuracy and diagnostic insight. Finally, deterministic evaluation underestimates safety risk by hiding rare but dangerous behaviors that appear only under multi-sample evaluation.
PDF22January 31, 2026