TrustLLM: Надежность больших языковых моделей

Аннотация

Крупные языковые модели (LLM), такие как ChatGPT, привлекли значительное внимание благодаря своим выдающимся возможностям в области обработки естественного языка. Тем не менее, эти LLM представляют множество вызовов, особенно в аспекте доверия. Таким образом, обеспечение доверия к LLM становится важной темой. В данной статье представлен TrustLLM — всестороннее исследование доверия к LLM, включая принципы для различных аспектов доверия, установленные эталоны, оценку и анализ доверия для основных LLM, а также обсуждение открытых проблем и будущих направлений. В частности, мы сначала предлагаем набор принципов для доверенных LLM, охватывающих восемь различных аспектов. На основе этих принципов мы далее устанавливаем эталон по шести аспектам, включая правдивость, безопасность, справедливость, устойчивость, конфиденциальность и машинную этику. Затем мы представляем исследование, оценивающее 16 основных LLM в рамках TrustLLM, с использованием более 30 наборов данных. Наши результаты показывают, что, во-первых, в целом доверие и полезность (т.е. функциональная эффективность) положительно связаны. Во-вторых, наши наблюдения показывают, что проприетарные LLM, как правило, превосходят большинство открытых аналогов с точки зрения доверия, что вызывает опасения по поводу потенциальных рисков широкодоступных открытых LLM. Однако некоторые открытые LLM очень близки к проприетарным. В-третьих, важно отметить, что некоторые LLM могут быть чрезмерно настроены на демонстрацию доверия, до такой степени, что они жертвуют своей полезностью, ошибочно воспринимая безобидные запросы как вредные и, следовательно, не отвечая на них. Наконец, мы подчеркиваем важность обеспечения прозрачности не только в самих моделях, но и в технологиях, лежащих в основе доверия. Знание конкретных технологий, обеспечивающих доверие, имеет решающее значение для анализа их эффективности.

English

Large language models (LLMs), exemplified by ChatGPT, have gained considerable attention for their excellent natural language processing capabilities. Nonetheless, these LLMs present many challenges, particularly in the realm of trustworthiness. Therefore, ensuring the trustworthiness of LLMs emerges as an important topic. This paper introduces TrustLLM, a comprehensive study of trustworthiness in LLMs, including principles for different dimensions of trustworthiness, established benchmark, evaluation, and analysis of trustworthiness for mainstream LLMs, and discussion of open challenges and future directions. Specifically, we first propose a set of principles for trustworthy LLMs that span eight different dimensions. Based on these principles, we further establish a benchmark across six dimensions including truthfulness, safety, fairness, robustness, privacy, and machine ethics. We then present a study evaluating 16 mainstream LLMs in TrustLLM, consisting of over 30 datasets. Our findings firstly show that in general trustworthiness and utility (i.e., functional effectiveness) are positively related. Secondly, our observations reveal that proprietary LLMs generally outperform most open-source counterparts in terms of trustworthiness, raising concerns about the potential risks of widely accessible open-source LLMs. However, a few open-source LLMs come very close to proprietary ones. Thirdly, it is important to note that some LLMs may be overly calibrated towards exhibiting trustworthiness, to the extent that they compromise their utility by mistakenly treating benign prompts as harmful and consequently not responding. Finally, we emphasize the importance of ensuring transparency not only in the models themselves but also in the technologies that underpin trustworthiness. Knowing the specific trustworthy technologies that have been employed is crucial for analyzing their effectiveness.

TrustLLM: Надежность больших языковых моделей

TrustLLM: Trustworthiness in Large Language Models

Аннотация

Support