ChatPaper.aiChatPaper

대규모 언어 모델의 안전성과 신뢰성에 미치는 양자화 방법의 영향 연구

Investigating the Impact of Quantization Methods on the Safety and Reliability of Large Language Models

February 18, 2025
저자: Artyom Kharinaev, Viktor Moskvoretskii, Egor Shvetsov, Kseniia Studenikina, Bykov Mikhail, Evgeny Burnaev
cs.AI

초록

대형 언어 모델(LLMs)은 현대의 도전 과제를 해결하고 실용적인 애플리케이션을 가능하게 하는 강력한 도구로 부상했습니다. 그러나 이들의 계산 비용은 광범위한 채택을 가로막는 중요한 장벽으로 남아 있습니다. 양자화(Quantization)는 접근성을 민주화하고 저자원 장치 배포를 가능하게 하는 유망한 기술로 떠오르고 있습니다. 이러한 발전에도 불구하고, 양자화된 모델의 안전성과 신뢰성은 충분히 탐구되지 않은 상태로 남아 있으며, 기존 연구들은 종종 현대적 아키텍처를 간과하고 지나치게 단순화된 벤치마크와 평가에 의존합니다. 이러한 격차를 해결하기 위해, 우리는 모델 간 차이를 더 잘 구별할 수 있도록 설계된 새로운 개방형 안전성 데이터셋인 OpenSafetyMini를 소개합니다. 우리는 LLaMA와 Mistral 모델에 대해 4가지 최신 양자화 기술을 4개의 벤치마크(인간 평가 포함)를 사용하여 평가했습니다. 연구 결과에 따르면, 4비트 정밀도에서 최적의 양자화 방법은 다양하며, 벡터 양자화 기술은 2비트 정밀도에서 최고의 안전성과 신뢰성 성능을 제공하여 향후 연구를 위한 기반을 마련했습니다.
English
Large Language Models (LLMs) have emerged as powerful tools for addressing modern challenges and enabling practical applications. However, their computational expense remains a significant barrier to widespread adoption. Quantization has emerged as a promising technique to democratize access and enable low resource device deployment. Despite these advancements, the safety and trustworthiness of quantized models remain underexplored, as prior studies often overlook contemporary architectures and rely on overly simplistic benchmarks and evaluations. To address this gap, we introduce OpenSafetyMini, a novel open-ended safety dataset designed to better distinguish between models. We evaluate 4 state-of-the-art quantization techniques across LLaMA and Mistral models using 4 benchmarks, including human evaluations. Our findings reveal that the optimal quantization method varies for 4-bit precision, while vector quantization techniques deliver the best safety and trustworthiness performance at 2-bit precision, providing foundation for future research.

Summary

AI-Generated Summary

PDF72February 25, 2025