CHAOS STOCHASTIQUE : Pourquoi l'inférence déterministe tue, et la variabilité distributionnelle est le battement de cœur de la cognition artificielle
Stochastic CHAOS: Why Deterministic Inference Kills, and Distributional Variability Is the Heartbeat of Artifical Cognition
January 12, 2026
papers.authors: Tanmay Joshi, Shourya Aggarwal, Anusa Saha, Aadi Pandey, Shreyash Dhoot, Vighnesh Rai, Raxit Goswami, Aman Chadha, Vinija Jain, Amitava Das
cs.AI
papers.abstract
L'inférence déterministe est un idéal rassurant dans le logiciel classique : le même programme avec la même entrée devrait toujours produire la même sortie. Alors que les grands modèles de langage se déploient dans le monde réel, cet idéal a été importé en bloc dans les piles d'inférence. Des travaux récents du Thinking Machines Lab ont présenté une analyse détaillée du non-déterminisme dans l'inférence des LLM, montrant comment des noyaux invariants par lot et une attention déterministe peuvent imposer des sorties identiques au niveau binaire, positionnant l'inférence déterministe comme un prérequis pour la reproductibilité et la fiabilité en entreprise.
Dans cet article, nous adoptons la position inverse. Nous soutenons que, pour les LLM, l'inférence déterministe tue. Elle tue la capacité à modéliser l'incertitude, supprime les capacités émergentes, réduit le raisonnement à un chemin unique et fragile, et affaiblit l'alignement de sécurité en masquant les risques de queue. Les LLM implémentent des distributions conditionnelles sur les sorties, et non des fonctions fixes. Réduire ces distributions à un seul résultat canonique peut sembler rassurant, mais cela occulte systématiquement des propriétés centrales à la cognition artificielle. Nous préconisons plutôt le CHAOS Stochastique, traitant la variabilité distributionnelle comme un signal à mesurer et à contrôler.
Empiriquement, nous montrons que l'inférence déterministe est systématiquement trompeuse. L'évaluation déterministe à un seul échantillon sous-estime à la fois les capacités et la fragilité, masquant la probabilité d'échec face à des paraphrases ou du bruit. Les transitions de phase associées aux capacités émergentes disparaissent avec un décodage glouton. Le raisonnement multi-voies se dégrade lorsqu'il est contraint sur des architectures déterministes, réduisant la précision et la capacité de diagnostic. Enfin, l'évaluation déterministe sous-estime le risque de sécurité en cachant des comportements rares mais dangereux qui n'apparaissent que sous une évaluation multi-échantillons.
English
Deterministic inference is a comforting ideal in classical software: the same program on the same input should always produce the same output. As large language models move into real-world deployment, this ideal has been imported wholesale into inference stacks. Recent work from the Thinking Machines Lab has presented a detailed analysis of nondeterminism in LLM inference, showing how batch-invariant kernels and deterministic attention can enforce bitwise-identical outputs, positioning deterministic inference as a prerequisite for reproducibility and enterprise reliability.
In this paper, we take the opposite stance. We argue that, for LLMs, deterministic inference kills. It kills the ability to model uncertainty, suppresses emergent abilities, collapses reasoning into a single brittle path, and weakens safety alignment by hiding tail risks. LLMs implement conditional distributions over outputs, not fixed functions. Collapsing these distributions to a single canonical completion may appear reassuring, but it systematically conceals properties central to artificial cognition. We instead advocate Stochastic CHAOS, treating distributional variability as a signal to be measured and controlled.
Empirically, we show that deterministic inference is systematically misleading. Single-sample deterministic evaluation underestimates both capability and fragility, masking failure probability under paraphrases and noise. Phase-like transitions associated with emergent abilities disappear under greedy decoding. Multi-path reasoning degrades when forced onto deterministic backbones, reducing accuracy and diagnostic insight. Finally, deterministic evaluation underestimates safety risk by hiding rare but dangerous behaviors that appear only under multi-sample evaluation.