Me Dê FP32 ou Me Dê a Morte? Desafios e Soluções para Raciocínio Reproduzível

Resumo

Os Modelos de Linguagem de Grande Escala (LLMs) são agora fundamentais em diversos domínios e demonstraram desempenho impressionante. No entanto, o progresso depende da premissa de que as pontuações de benchmarks são precisas e reproduzíveis. Demonstramos que a reprodutibilidade do desempenho dos LLMs é frágil: alterações na configuração do sistema, como tamanho do lote de avaliação, número de GPUs e versão da GPU, podem introduzir diferenças significativas nas respostas geradas. Esse problema é especialmente pronunciado em modelos de raciocínio, onde pequenas diferenças de arredondamento nos primeiros tokens podem se propagar em cadeias de pensamento divergentes, afetando a precisão. Por exemplo, sob precisão bfloat16 com decodificação gananciosa, um modelo de raciocínio como o DeepSeek-R1-Distill-Qwen-7B pode exibir variações de até 9% na precisão e diferenças de 9.000 tokens no comprimento da resposta devido a diferenças no número de GPUs, tipo e tamanho do lote de avaliação. Rastreamos a causa raiz dessa variabilidade à natureza não associativa da aritmética de ponto flutuante sob precisão numérica limitada. Este trabalho apresenta a primeira investigação sistemática sobre como a precisão numérica afeta a reprodutibilidade na inferência de LLMs. Por meio de experimentos cuidadosamente controlados em diversos cenários de hardware, software e configurações de precisão, quantificamos quando e como as saídas do modelo divergem. Nossa análise revela que a precisão de ponto flutuante — embora crítica para a reprodutibilidade — é frequentemente negligenciada nas práticas de avaliação. Inspirados por isso, desenvolvemos um pipeline de inferência leve, chamado LayerCast, que armazena pesos em precisão de 16 bits, mas realiza todos os cálculos em FP32, equilibrando eficiência de memória com estabilidade numérica. O código está disponível em https://github.com/nanomaoli/llm_reproducibility.

English

Large Language Models (LLMs) are now integral across various domains and have demonstrated impressive performance. Progress, however, rests on the premise that benchmark scores are both accurate and reproducible. We demonstrate that the reproducibility of LLM performance is fragile: changing system configuration such as evaluation batch size, GPU count, and GPU version can introduce significant difference in the generated responses. This issue is especially pronounced in reasoning models, where minor rounding differences in early tokens can cascade into divergent chains of thought, ultimately affecting accuracy. For instance, under bfloat16 precision with greedy decoding, a reasoning model like DeepSeek-R1-Distill-Qwen-7B can exhibit up to 9% variation in accuracy and 9,000 tokens difference in response length due to differences in GPU count, type, and evaluation batch size. We trace the root cause of this variability to the non-associative nature of floating-point arithmetic under limited numerical precision. This work presents the first systematic investigation into how numerical precision affects reproducibility in LLM inference. Through carefully controlled experiments across various hardware, software, and precision settings, we quantify when and how model outputs diverge. Our analysis reveals that floating-point precision -- while critical for reproducibility -- is often neglected in evaluation practices. Inspired by this, we develop a lightweight inference pipeline, dubbed LayerCast, that stores weights in 16-bit precision but performs all computations in FP32, balancing memory efficiency with numerical stability. Code is available at https://github.com/nanomaoli/llm_reproducibility.

Me Dê FP32 ou Me Dê a Morte? Desafios e Soluções para Raciocínio Reproduzível

Give Me FP32 or Give Me Death? Challenges and Solutions for Reproducible Reasoning

Resumo

Support