Caos Estocástico: Por que a Inferência Determinista Mata, e a Variabilidade Distribucional é o Pulsar da Cognição Artificial
Stochastic CHAOS: Why Deterministic Inference Kills, and Distributional Variability Is the Heartbeat of Artifical Cognition
January 12, 2026
Autores: Tanmay Joshi, Shourya Aggarwal, Anusa Saha, Aadi Pandey, Shreyash Dhoot, Vighnesh Rai, Raxit Goswami, Aman Chadha, Vinija Jain, Amitava Das
cs.AI
Resumo
A inferência determinística é um ideal tranquilizador no software clássico: o mesmo programa com a mesma entrada deve sempre produzir a mesma saída. À medida que os modelos de linguagem de grande escala avançam para implantações no mundo real, esse ideal foi importado integralmente para as pilhas de inferência. Trabalhos recentes do Thinking Machines Lab apresentaram uma análise detalhada do não-determinismo na inferência de LLMs, mostrando como kernels invariantes por lote e atenção determinística podem impor saídas bit a bit idênticas, posicionando a inferência determinística como um pré-requisito para a reprodutibilidade e confiabilidade empresarial.
Neste artigo, adotamos a posição oposta. Argumentamos que, para os LLMs, a inferência determinística é letal. Ela mata a capacidade de modelar a incerteza, suprime habilidades emergentes, colapsa o raciocínio em um único caminho frágil e enfraquece o alinhamento de segurança ao ocultar riscos de cauda. Os LLMs implementam distribuições condicionais sobre saídas, não funções fixas. Colapsar essas distribuições para uma única conclusão canônica pode parecer tranquilizador, mas oculta sistematicamente propriedades centrais para a cognição artificial. Em vez disso, defendemos o CHAOS Estocástico, tratando a variabilidade distribucional como um sinal a ser medido e controlado.
Empiricamente, mostramos que a inferência determinística é sistematicamente enganosa. A avaliação determinística de amostra única subestima tanto a capacidade quanto a fragilidade, mascarando a probabilidade de falha sob paráfrases e ruído. Transições de fase associadas a habilidades emergentes desaparecem sob decodificação gulosa. O raciocínio de múltiplos caminhos se degrada quando forçado em estruturas determinísticas, reduzindo a precisão e a capacidade de diagnóstico. Por fim, a avaliação determinística subestima o risco de segurança ao ocultar comportamentos raros, porém perigosos, que só aparecem sob avaliação com múltiplas amostras.
English
Deterministic inference is a comforting ideal in classical software: the same program on the same input should always produce the same output. As large language models move into real-world deployment, this ideal has been imported wholesale into inference stacks. Recent work from the Thinking Machines Lab has presented a detailed analysis of nondeterminism in LLM inference, showing how batch-invariant kernels and deterministic attention can enforce bitwise-identical outputs, positioning deterministic inference as a prerequisite for reproducibility and enterprise reliability.
In this paper, we take the opposite stance. We argue that, for LLMs, deterministic inference kills. It kills the ability to model uncertainty, suppresses emergent abilities, collapses reasoning into a single brittle path, and weakens safety alignment by hiding tail risks. LLMs implement conditional distributions over outputs, not fixed functions. Collapsing these distributions to a single canonical completion may appear reassuring, but it systematically conceals properties central to artificial cognition. We instead advocate Stochastic CHAOS, treating distributional variability as a signal to be measured and controlled.
Empirically, we show that deterministic inference is systematically misleading. Single-sample deterministic evaluation underestimates both capability and fragility, masking failure probability under paraphrases and noise. Phase-like transitions associated with emergent abilities disappear under greedy decoding. Multi-path reasoning degrades when forced onto deterministic backbones, reducing accuracy and diagnostic insight. Finally, deterministic evaluation underestimates safety risk by hiding rare but dangerous behaviors that appear only under multi-sample evaluation.