信頼性のある大規模言語モデル:大規模言語モデルのアライメント評価に関する調査とガイドライン
Trustworthy LLMs: a Survey and Guideline for Evaluating Large Language Models' Alignment
August 10, 2023
著者: Yang Liu, Yuanshun Yao, Jean-Francois Ton, Xiaoying Zhang, Ruocheng Guo Hao Cheng, Yegor Klochkov, Muhammad Faaiz Taufiq, Hang Li
cs.AI
要旨
人間の意図に沿ってモデルを動作させることを指す「アラインメント」の確保[1,2]は、大規模言語モデル(LLM)を実世界のアプリケーションに展開する前の重要な課題となっている。例えば、OpenAIはGPT-4のリリース前に6ヶ月をかけて反復的にアラインメントを行った[3]。しかし、実務者にとって大きな課題は、LLMの出力が社会的規範、価値観、規制に沿っているかどうかを評価するための明確なガイダンスが不足していることである。この障壁は、LLMの体系的な反復と展開を妨げている。この問題に対処するため、本論文では、LLMの信頼性を評価する際に考慮すべき重要な次元に関する包括的な調査を提示する。この調査は、LLMの信頼性に関する7つの主要カテゴリをカバーしている:信頼性、安全性、公平性、誤用への耐性、説明可能性と推論、社会的規範への準拠、堅牢性である。各主要カテゴリはさらにいくつかのサブカテゴリに分割され、合計29のサブカテゴリが得られる。さらに、8つのサブカテゴリが選ばれ、それらに対応する測定研究が設計され、いくつかの広く使用されているLLMに対して実施された。測定結果は、一般的に、よりアラインメントされたモデルは全体的な信頼性の面で優れている傾向があることを示している。しかし、アラインメントの効果は、考慮された異なる信頼性カテゴリ間で異なる。これは、より細かい分析、テスト、およびLLMアラインメントの継続的な改善の重要性を強調している。LLMの信頼性に関するこれらの重要な次元に光を当てることで、本論文は、この分野の実務者に貴重な洞察とガイダンスを提供することを目指している。これらの懸念を理解し、対処することは、様々なアプリケーションにおけるLLMの信頼性と倫理的に健全な展開を達成する上で重要である。
English
Ensuring alignment, which refers to making models behave in accordance with
human intentions [1,2], has become a critical task before deploying large
language models (LLMs) in real-world applications. For instance, OpenAI devoted
six months to iteratively aligning GPT-4 before its release [3]. However, a
major challenge faced by practitioners is the lack of clear guidance on
evaluating whether LLM outputs align with social norms, values, and
regulations. This obstacle hinders systematic iteration and deployment of LLMs.
To address this issue, this paper presents a comprehensive survey of key
dimensions that are crucial to consider when assessing LLM trustworthiness. The
survey covers seven major categories of LLM trustworthiness: reliability,
safety, fairness, resistance to misuse, explainability and reasoning, adherence
to social norms, and robustness. Each major category is further divided into
several sub-categories, resulting in a total of 29 sub-categories.
Additionally, a subset of 8 sub-categories is selected for further
investigation, where corresponding measurement studies are designed and
conducted on several widely-used LLMs. The measurement results indicate that,
in general, more aligned models tend to perform better in terms of overall
trustworthiness. However, the effectiveness of alignment varies across the
different trustworthiness categories considered. This highlights the importance
of conducting more fine-grained analyses, testing, and making continuous
improvements on LLM alignment. By shedding light on these key dimensions of LLM
trustworthiness, this paper aims to provide valuable insights and guidance to
practitioners in the field. Understanding and addressing these concerns will be
crucial in achieving reliable and ethically sound deployment of LLMs in various
applications.