CHAOS Stocastico: Perché l'Inferenza Deterministica Uccide, e la Variabilità Distribuzionale è il Battito Cardiaco della Cognizione Artificiale
Stochastic CHAOS: Why Deterministic Inference Kills, and Distributional Variability Is the Heartbeat of Artifical Cognition
January 12, 2026
Autori: Tanmay Joshi, Shourya Aggarwal, Anusa Saha, Aadi Pandey, Shreyash Dhoot, Vighnesh Rai, Raxit Goswami, Aman Chadha, Vinija Jain, Amitava Das
cs.AI
Abstract
L'inferenza deterministica è un ideale rassicurante nel software classico: lo stesso programma con lo stesso input dovrebbe sempre produrre lo stesso output. Con l'ingresso dei grandi modelli linguistici nelle implementazioni del mondo reale, questo ideale è stato importato in blocco negli stack di inferenza. Recenti lavori del Thinking Machines Lab hanno presentato un'analisi dettagliata del non-determinismo nell'inferenza degli LLM, mostrando come kernel invarianti al batch e attenzione deterministica possano imporre output identici a livello di bit, posizionando l'inferenza deterministica come un prerequisito per la riproducibilità e l'affidabilità aziendale.
In questo articolo, assumiamo la posizione opposta. Sosteniamo che, per gli LLM, l'inferenza deterministica uccida. Uccide la capacità di modellare l'incertezza, sopprime le abilità emergenti, comprime il ragionamento in un unico percorso fragile e indebolisce l'allineamento alla sicurezza nascondendo i rischi di coda. Gli LLM implementano distribuzioni condizionate sugli output, non funzioni fisse. Comprimere queste distribuzioni in un singolo completamento canonico può apparire rassicurante, ma nasconde sistematicamente proprietà centrali per la cognizione artificiale. Noi sosteniamo invece lo Stochastic CHAOS, trattando la variabilità distribuzionale come un segnale da misurare e controllare.
Empiricamente, dimostriamo che l'inferenza deterministica è sistematicamente fuorviante. La valutazione deterministica a campione singolo sottostima sia le capacità che la fragilità, mascherando la probabilità di fallimento sotto parafrasi e rumore. Transizioni di fase associate ad abilità emergenti scompaiono con il decoding greedy. Il ragionamento multi-percorso si degrada quando forzato su backbone deterministici, riducendo accuratezza e capacità diagnostica. Infine, la valutazione deterministica sottostima il rischio per la sicurezza nascondendo comportamenti rari ma pericolosi che compaiono solo sotto una valutazione multi-campione.
English
Deterministic inference is a comforting ideal in classical software: the same program on the same input should always produce the same output. As large language models move into real-world deployment, this ideal has been imported wholesale into inference stacks. Recent work from the Thinking Machines Lab has presented a detailed analysis of nondeterminism in LLM inference, showing how batch-invariant kernels and deterministic attention can enforce bitwise-identical outputs, positioning deterministic inference as a prerequisite for reproducibility and enterprise reliability.
In this paper, we take the opposite stance. We argue that, for LLMs, deterministic inference kills. It kills the ability to model uncertainty, suppresses emergent abilities, collapses reasoning into a single brittle path, and weakens safety alignment by hiding tail risks. LLMs implement conditional distributions over outputs, not fixed functions. Collapsing these distributions to a single canonical completion may appear reassuring, but it systematically conceals properties central to artificial cognition. We instead advocate Stochastic CHAOS, treating distributional variability as a signal to be measured and controlled.
Empirically, we show that deterministic inference is systematically misleading. Single-sample deterministic evaluation underestimates both capability and fragility, masking failure probability under paraphrases and noise. Phase-like transitions associated with emergent abilities disappear under greedy decoding. Multi-path reasoning degrades when forced onto deterministic backbones, reducing accuracy and diagnostic insight. Finally, deterministic evaluation underestimates safety risk by hiding rare but dangerous behaviors that appear only under multi-sample evaluation.