ChatPaper.aiChatPaper

La quantification nuit-elle au raisonnement ? Une étude empirique sur les modèles de raisonnement quantifiés

Quantization Hurts Reasoning? An Empirical Study on Quantized Reasoning Models

April 7, 2025
Auteurs: Ruikang Liu, Yuxuan Sun, Manyi Zhang, Haoli Bai, Xianzhi Yu, Tiezheng Yu, Chun Yuan, Lu Hou
cs.AI

Résumé

Les récents progrès des modèles de langage à raisonnement ont démontré des performances remarquables dans des tâches complexes, mais leur processus de raisonnement en chaîne de pensée étendue augmente la surcharge d'inférence. Bien que la quantification ait été largement adoptée pour réduire le coût d'inférence des grands modèles de langage, son impact sur les modèles de raisonnement reste peu étudié. Dans cette étude, nous menons la première étude systématique sur les modèles de raisonnement quantifiés, évaluant les familles DeepSeek-R1-Distilled Qwen et LLaMA, allant de 1,5B à 70B paramètres, ainsi que QwQ-32B, disponibles en open source. Notre investigation couvre la quantification des poids, du cache KV et des activations en utilisant des algorithmes de pointe à différentes largeurs de bits, avec une évaluation approfondie sur des benchmarks de raisonnement mathématique (AIME, MATH-500), scientifique (GPQA) et de programmation (LiveCodeBench). Nos résultats révèlent que bien qu'une quantification sans perte puisse être atteinte avec une quantification W8A8 ou W4A16, des largeurs de bits plus faibles introduisent des risques significatifs de précision. Nous identifions également la taille du modèle, son origine et la difficulté de la tâche comme des déterminants critiques de la performance. Contrairement aux attentes, les modèles quantifiés n'exhibent pas d'augmentation de la longueur des sorties. De plus, une mise à l'échelle stratégique des tailles de modèles ou des étapes de raisonnement peut efficacement améliorer les performances. Tous les modèles quantifiés et les codes seront mis à disposition en open source sur https://github.com/ruikangliu/Quantized-Reasoning-Models.
English
Recent advancements in reasoning language models have demonstrated remarkable performance in complex tasks, but their extended chain-of-thought reasoning process increases inference overhead. While quantization has been widely adopted to reduce the inference cost of large language models, its impact on reasoning models remains understudied. In this study, we conduct the first systematic study on quantized reasoning models, evaluating the open-sourced DeepSeek-R1-Distilled Qwen and LLaMA families ranging from 1.5B to 70B parameters, and QwQ-32B. Our investigation covers weight, KV cache, and activation quantization using state-of-the-art algorithms at varying bit-widths, with extensive evaluation across mathematical (AIME, MATH-500), scientific (GPQA), and programming (LiveCodeBench) reasoning benchmarks. Our findings reveal that while lossless quantization can be achieved with W8A8 or W4A16 quantization, lower bit-widths introduce significant accuracy risks. We further identify model size, model origin, and task difficulty as critical determinants of performance. Contrary to expectations, quantized models do not exhibit increased output lengths. In addition, strategically scaling the model sizes or reasoning steps can effectively enhance the performance. All quantized models and codes will be open-sourced in https://github.com/ruikangliu/Quantized-Reasoning-Models.

Summary

AI-Generated Summary

PDF302April 8, 2025