Me Dê FP32 ou Me Dê a Morte? Desafios e Soluções para Raciocínio Reproduzível
Give Me FP32 or Give Me Death? Challenges and Solutions for Reproducible Reasoning
June 11, 2025
Autores: Jiayi Yuan, Hao Li, Xinheng Ding, Wenya Xie, Yu-Jhe Li, Wentian Zhao, Kun Wan, Jing Shi, Xia Hu, Zirui Liu
cs.AI
Resumo
Os Modelos de Linguagem de Grande Escala (LLMs) são agora fundamentais em diversos domínios e demonstraram desempenho impressionante. No entanto, o progresso depende da premissa de que as pontuações de benchmarks são precisas e reproduzíveis. Demonstramos que a reprodutibilidade do desempenho dos LLMs é frágil: alterações na configuração do sistema, como tamanho do lote de avaliação, número de GPUs e versão da GPU, podem introduzir diferenças significativas nas respostas geradas. Esse problema é especialmente pronunciado em modelos de raciocínio, onde pequenas diferenças de arredondamento nos primeiros tokens podem se propagar em cadeias de pensamento divergentes, afetando a precisão. Por exemplo, sob precisão bfloat16 com decodificação gananciosa, um modelo de raciocínio como o DeepSeek-R1-Distill-Qwen-7B pode exibir variações de até 9% na precisão e diferenças de 9.000 tokens no comprimento da resposta devido a diferenças no número de GPUs, tipo e tamanho do lote de avaliação. Rastreamos a causa raiz dessa variabilidade à natureza não associativa da aritmética de ponto flutuante sob precisão numérica limitada. Este trabalho apresenta a primeira investigação sistemática sobre como a precisão numérica afeta a reprodutibilidade na inferência de LLMs. Por meio de experimentos cuidadosamente controlados em diversos cenários de hardware, software e configurações de precisão, quantificamos quando e como as saídas do modelo divergem. Nossa análise revela que a precisão de ponto flutuante — embora crítica para a reprodutibilidade — é frequentemente negligenciada nas práticas de avaliação. Inspirados por isso, desenvolvemos um pipeline de inferência leve, chamado LayerCast, que armazena pesos em precisão de 16 bits, mas realiza todos os cálculos em FP32, equilibrando eficiência de memória com estabilidade numérica. O código está disponível em https://github.com/nanomaoli/llm_reproducibility.
English
Large Language Models (LLMs) are now integral across various domains and have
demonstrated impressive performance. Progress, however, rests on the premise
that benchmark scores are both accurate and reproducible. We demonstrate that
the reproducibility of LLM performance is fragile: changing system
configuration such as evaluation batch size, GPU count, and GPU version can
introduce significant difference in the generated responses. This issue is
especially pronounced in reasoning models, where minor rounding differences in
early tokens can cascade into divergent chains of thought, ultimately affecting
accuracy. For instance, under bfloat16 precision with greedy decoding, a
reasoning model like DeepSeek-R1-Distill-Qwen-7B can exhibit up to 9% variation
in accuracy and 9,000 tokens difference in response length due to differences
in GPU count, type, and evaluation batch size. We trace the root cause of this
variability to the non-associative nature of floating-point arithmetic under
limited numerical precision. This work presents the first systematic
investigation into how numerical precision affects reproducibility in LLM
inference. Through carefully controlled experiments across various hardware,
software, and precision settings, we quantify when and how model outputs
diverge. Our analysis reveals that floating-point precision -- while critical
for reproducibility -- is often neglected in evaluation practices. Inspired by
this, we develop a lightweight inference pipeline, dubbed LayerCast, that
stores weights in 16-bit precision but performs all computations in FP32,
balancing memory efficiency with numerical stability. Code is available at
https://github.com/nanomaoli/llm_reproducibility.