Stochastische CHAOS: Waarom Deterministische Inferentie Doodt, en Distributie-Variabiliteit de Hartslag van Kunstmatig Cognitie is
Stochastic CHAOS: Why Deterministic Inference Kills, and Distributional Variability Is the Heartbeat of Artifical Cognition
January 12, 2026
Auteurs: Tanmay Joshi, Shourya Aggarwal, Anusa Saha, Aadi Pandey, Shreyash Dhoot, Vighnesh Rai, Raxit Goswami, Aman Chadha, Vinija Jain, Amitava Das
cs.AI
Samenvatting
Deterministische inferentie is een geruststellend ideaal in klassieke software: hetzelfde programma met dezelfde invoer zou altijd dezelfde uitvoer moeten produceren. Nu grote taalmodellen in praktijk worden ingezet, is dit ideaal in zijn geheel overgenomen in inferentiestacks. Recent werk van het Thinking Machines Lab presenteert een gedetailleerde analyse van non-determinisme in LLM-inferentie, en toont aan hoe batch-invariante kernels en deterministische aandacht bitwise identieke uitvoer kunnen afdwingen, waarbij deterministische inferentie wordt gepositioneerd als een voorwaarde voor reproduceerbaarheid en betrouwbaarheid in bedrijfsomgevingen.
In dit paper nemen we het tegenovergestelde standpunt in. Wij beargumenteren dat voor LLM's deterministische inferentie doodt. Het doodt het vermogen om onzekerheid te modelleren, onderdrukt emergentievermogen, reduceert redeneren tot een enkele broze route en verzwakt veiligheidsafstemming door staartrisico's te verbergen. LLM's implementeren conditionele verdelingen over uitvoeren, geen vaste functies. Het samenpersen van deze verdelingen tot één canonieke voltooiing kan geruststellend lijken, maar het verbergt systematisch eigenschappen die centraal staan in kunstmatige cognitie. Wij pleiten in plaats daarvan voor Stochastic CHAOS, waarbij distributionele variabiliteit wordt behandeld als een signaal dat gemeten en gecontroleerd moet worden.
Empirisch tonen we aan dat deterministische inferentie systematisch misleidend is. Evaluatie met een enkel deterministisch monster onderschat zowel capaciteit als kwetsbaarheid, en maskeert faalkans onder parafrases en ruis. Fasovergangen geassocieerd met emergentievermogen verdwijnen bij gretige decodering. Redeneren met meerdere paden degradeert wanneer het wordt geforceerd op deterministische backbones, wat de nauwkeurigheid en diagnostische inzichten vermindert. Ten slotte onderschat deterministische evaluatie veiligheidsrisico's door zeldzame maar gevaarlijke gedragingen te verbergen die alleen verschijnen bij evaluatie met meerdere monsters.
English
Deterministic inference is a comforting ideal in classical software: the same program on the same input should always produce the same output. As large language models move into real-world deployment, this ideal has been imported wholesale into inference stacks. Recent work from the Thinking Machines Lab has presented a detailed analysis of nondeterminism in LLM inference, showing how batch-invariant kernels and deterministic attention can enforce bitwise-identical outputs, positioning deterministic inference as a prerequisite for reproducibility and enterprise reliability.
In this paper, we take the opposite stance. We argue that, for LLMs, deterministic inference kills. It kills the ability to model uncertainty, suppresses emergent abilities, collapses reasoning into a single brittle path, and weakens safety alignment by hiding tail risks. LLMs implement conditional distributions over outputs, not fixed functions. Collapsing these distributions to a single canonical completion may appear reassuring, but it systematically conceals properties central to artificial cognition. We instead advocate Stochastic CHAOS, treating distributional variability as a signal to be measured and controlled.
Empirically, we show that deterministic inference is systematically misleading. Single-sample deterministic evaluation underestimates both capability and fragility, masking failure probability under paraphrases and noise. Phase-like transitions associated with emergent abilities disappear under greedy decoding. Multi-path reasoning degrades when forced onto deterministic backbones, reducing accuracy and diagnostic insight. Finally, deterministic evaluation underestimates safety risk by hiding rare but dangerous behaviors that appear only under multi-sample evaluation.