ChatPaper.aiChatPaper

Stochastisches CHAOS: Warum deterministische Inferenz tötet und verteilungsbasierte Variabilität der Herzschlag künstlicher Kognition ist

Stochastic CHAOS: Why Deterministic Inference Kills, and Distributional Variability Is the Heartbeat of Artifical Cognition

January 12, 2026
papers.authors: Tanmay Joshi, Shourya Aggarwal, Anusa Saha, Aadi Pandey, Shreyash Dhoot, Vighnesh Rai, Raxit Goswami, Aman Chadha, Vinija Jain, Amitava Das
cs.AI

papers.abstract

Deterministische Inferenz ist ein beruhigendes Ideal in klassischer Software: Dasselbe Programm mit derselben Eingabe sollte stets dieselbe Ausgabe produzieren. Während große Sprachmodelle in den realen Einsatz übergehen, wurde dieses Ideal unverändert in Inferenz-Stacks übernommen. Jüngste Arbeiten des Thinking Machines Lab haben eine detaillierte Analyse der Nichtdeterminiertheit in der LLM-Inferenz vorgelegt und gezeigt, wie batch-invariante Kernel und deterministische Attention bitweise identische Ausgaben erzwingen können, wobei deterministische Inferenz als Voraussetzung für Reproduzierbarkeit und unternehmerische Zuverlässigkeit positioniert wird. In diesem Papier vertreten wir die gegenteilige Position. Wir argumentieren, dass deterministische Inferenz für LLMs deren Fähigkeiten abtötet. Sie tötet die Fähigkeit ab, Unsicherheit zu modellieren, unterdrückt emergente Fähigkeiten, zwingt das Reasoning auf einen einzigen spröden Pfad und schwächt die Sicherheitsausrichtung (Safety Alignment), indem sie Tail Risks verbirgt. LLMs implementieren bedingte Verteilungen über Ausgaben, keine festen Funktionen. Diese Verteilungen auf eine einzige kanonische Vervollständigung zu reduzieren, mag beruhigend wirken, verschleiert aber systematisch Eigenschaften, die für künstliche Kognition zentral sind. Stattdessen befürworten wir Stochastic CHAOS, bei dem die Verteilungsvariabilität als ein zu messendes und zu kontrollierendes Signal behandelt wird. Empirisch zeigen wir, dass deterministische Inferenz systematisch irreführend ist. Die deterministische Auswertung mit einer einzelnen Stichprobe unterschätzt sowohl die Fähigkeiten als auch die Fragilität der Modelle und verschleiert die Ausfallwahrscheinlichkeit unter Paraphrasen und Rauschen. Phasenübergänge, die mit emergenten Fähigkeiten verbunden sind, verschwinden unter greedy Decoding. Mehrpfad-Reasoning verschlechtert sich, wenn es auf deterministische Backbones gezwungen wird, was die Genauigkeit und diagnostische Einsicht verringert. Schließlich unterschätzt die deterministische Bewertung das Sicherheitsrisiko, indem sie seltene, aber gefährliche Verhaltensweisen verbirgt, die nur bei einer Auswertung mit mehreren Stichproben auftreten.
English
Deterministic inference is a comforting ideal in classical software: the same program on the same input should always produce the same output. As large language models move into real-world deployment, this ideal has been imported wholesale into inference stacks. Recent work from the Thinking Machines Lab has presented a detailed analysis of nondeterminism in LLM inference, showing how batch-invariant kernels and deterministic attention can enforce bitwise-identical outputs, positioning deterministic inference as a prerequisite for reproducibility and enterprise reliability. In this paper, we take the opposite stance. We argue that, for LLMs, deterministic inference kills. It kills the ability to model uncertainty, suppresses emergent abilities, collapses reasoning into a single brittle path, and weakens safety alignment by hiding tail risks. LLMs implement conditional distributions over outputs, not fixed functions. Collapsing these distributions to a single canonical completion may appear reassuring, but it systematically conceals properties central to artificial cognition. We instead advocate Stochastic CHAOS, treating distributional variability as a signal to be measured and controlled. Empirically, we show that deterministic inference is systematically misleading. Single-sample deterministic evaluation underestimates both capability and fragility, masking failure probability under paraphrases and noise. Phase-like transitions associated with emergent abilities disappear under greedy decoding. Multi-path reasoning degrades when forced onto deterministic backbones, reducing accuracy and diagnostic insight. Finally, deterministic evaluation underestimates safety risk by hiding rare but dangerous behaviors that appear only under multi-sample evaluation.
PDF22January 31, 2026