ChatPaper.aiChatPaper

Caos Estocástico: Por Qué la Inferencia Determinista Mata y la Variabilidad Distribucional es el Latido de la Cognición Artificial

Stochastic CHAOS: Why Deterministic Inference Kills, and Distributional Variability Is the Heartbeat of Artifical Cognition

January 12, 2026
Autores: Tanmay Joshi, Shourya Aggarwal, Anusa Saha, Aadi Pandey, Shreyash Dhoot, Vighnesh Rai, Raxit Goswami, Aman Chadha, Vinija Jain, Amitava Das
cs.AI

Resumen

La inferencia determinista es un ideal reconfortante en el software clásico: el mismo programa con la misma entrada siempre debe producir la misma salida. A medida que los grandes modelos lingüísticos se despliegan en el mundo real, este ideal se ha importado en bloque a las pilas de inferencia. Un trabajo reciente del Thinking Machines Lab ha presentado un análisis detallado del no determinismo en la inferencia de LLM, mostrando cómo los núcleos invariantes por lotes y la atención determinista pueden imponer salidas idénticas a nivel de bits, posicionando la inferencia determinista como un prerrequisito para la reproducibilidad y la fiabilidad empresarial. En este artículo, adoptamos la postura contraria. Argumentamos que, para los LLM, la inferencia determinista mata. Mata la capacidad de modelar la incertidumbre, suprime las habilidades emergentes, colapsa el razonamiento en una única vía frágil y debilita la alineación de seguridad al ocultar los riesgos de cola. Los LLM implementan distribuciones condicionales sobre las salidas, no funciones fijas. Colapsar estas distribuciones a una única finalización canónica puede parecer tranquilizador, pero oculta sistemáticamente propiedades centrales para la cognición artificial. En su lugar, defendemos el CAOS Estocástico, tratando la variabilidad distribucional como una señal que debe medirse y controlarse. Empíricamente, demostramos que la inferencia determinista es sistemáticamente engañosa. La evaluación determinista de una sola muestra subestima tanto la capacidad como la fragilidad, enmascarando la probabilidad de fallo bajo paráfrasis y ruido. Las transiciones de fase asociadas a las habilidades emergentes desaparecen bajo decodificación voraz. El razonamiento multipath se degrada cuando se fuerza sobre esquemas deterministas, reduciendo la precisión y la capacidad de diagnóstico. Finalmente, la evaluación determinista subestima el riesgo de seguridad al ocultar comportamientos raros pero peligrosos que solo aparecen bajo una evaluación multi-muestra.
English
Deterministic inference is a comforting ideal in classical software: the same program on the same input should always produce the same output. As large language models move into real-world deployment, this ideal has been imported wholesale into inference stacks. Recent work from the Thinking Machines Lab has presented a detailed analysis of nondeterminism in LLM inference, showing how batch-invariant kernels and deterministic attention can enforce bitwise-identical outputs, positioning deterministic inference as a prerequisite for reproducibility and enterprise reliability. In this paper, we take the opposite stance. We argue that, for LLMs, deterministic inference kills. It kills the ability to model uncertainty, suppresses emergent abilities, collapses reasoning into a single brittle path, and weakens safety alignment by hiding tail risks. LLMs implement conditional distributions over outputs, not fixed functions. Collapsing these distributions to a single canonical completion may appear reassuring, but it systematically conceals properties central to artificial cognition. We instead advocate Stochastic CHAOS, treating distributional variability as a signal to be measured and controlled. Empirically, we show that deterministic inference is systematically misleading. Single-sample deterministic evaluation underestimates both capability and fragility, masking failure probability under paraphrases and noise. Phase-like transitions associated with emergent abilities disappear under greedy decoding. Multi-path reasoning degrades when forced onto deterministic backbones, reducing accuracy and diagnostic insight. Finally, deterministic evaluation underestimates safety risk by hiding rare but dangerous behaviors that appear only under multi-sample evaluation.
PDF22January 31, 2026