ChatPaper.aiChatPaper

Décoder la confiance compressée : Examiner la fiabilité des LLM efficaces sous compression

Decoding Compressed Trust: Scrutinizing the Trustworthiness of Efficient LLMs Under Compression

March 18, 2024
Auteurs: Junyuan Hong, Jinhao Duan, Chenhui Zhang, Zhangheng Li, Chulin Xie, Kelsey Lieberman, James Diffenderfer, Brian Bartoldson, Ajay Jaiswal, Kaidi Xu, Bhavya Kailkhura, Dan Hendrycks, Dawn Song, Zhangyang Wang, Bo Li
cs.AI

Résumé

La compression des modèles de langage de grande capacité (LLMs) est devenue une stratégie privilégiée pour des inférences économes en ressources. Bien que les méthodes de compression de pointe (SoTA) affichent des avancées impressionnantes dans la préservation des performances sur des tâches bénignes, les risques potentiels de la compression en termes de sécurité et de fiabilité ont été largement négligés. Cette étude réalise la première évaluation approfondie de trois (3) LLMs leaders en utilisant cinq (5) techniques de compression SoTA à travers huit (8) dimensions de fiabilité. Nos expériences mettent en lumière l'interaction complexe entre compression et fiabilité, révélant des tendances intéressantes. Nous constatons que la quantification est actuellement une approche plus efficace que l'élagage pour atteindre simultanément efficacité et fiabilité. Par exemple, un modèle quantifié en 4 bits conserve la fiabilité de son homologue original, mais l'élagage du modèle dégrade significativement la fiabilité, même à 50 % de sparsité. De plus, l'utilisation de la quantification dans une plage de bits modérée pourrait améliorer de manière inattendue certaines dimensions de fiabilité, telles que l'éthique et l'équité. À l'inverse, une quantification extrême à des niveaux de bits très bas (3 bits) tend à réduire significativement la fiabilité. Ce risque accru ne peut être détecté en examinant uniquement les performances bénignes, ce qui nécessite en pratique une évaluation complète de la fiabilité. Ces résultats aboutissent à des recommandations pratiques pour atteindre simultanément une utilité élevée, une efficacité et une fiabilité dans les LLMs. Les modèles et le code sont disponibles à l'adresse https://decoding-comp-trust.github.io/.
English
Compressing high-capability Large Language Models (LLMs) has emerged as a favored strategy for resource-efficient inferences. While state-of-the-art (SoTA) compression methods boast impressive advancements in preserving benign task performance, the potential risks of compression in terms of safety and trustworthiness have been largely neglected. This study conducts the first, thorough evaluation of three (3) leading LLMs using five (5) SoTA compression techniques across eight (8) trustworthiness dimensions. Our experiments highlight the intricate interplay between compression and trustworthiness, revealing some interesting patterns. We find that quantization is currently a more effective approach than pruning in achieving efficiency and trustworthiness simultaneously. For instance, a 4-bit quantized model retains the trustworthiness of its original counterpart, but model pruning significantly degrades trustworthiness, even at 50% sparsity. Moreover, employing quantization within a moderate bit range could unexpectedly improve certain trustworthiness dimensions such as ethics and fairness. Conversely, extreme quantization to very low bit levels (3 bits) tends to significantly reduce trustworthiness. This increased risk cannot be uncovered by looking at benign performance alone, in turn, mandating comprehensive trustworthiness evaluation in practice. These findings culminate in practical recommendations for simultaneously achieving high utility, efficiency, and trustworthiness in LLMs. Models and code are available at https://decoding-comp-trust.github.io/.

Summary

AI-Generated Summary

PDF161December 15, 2024