Phare: 大規模言語モデルのための安全性プローブ
Phare: A Safety Probe for Large Language Models
May 16, 2025
著者: Pierre Le Jeune, Benoît Malézieux, Weixuan Xiao, Matteo Dora
cs.AI
要旨
大規模言語モデル(LLM)の安全性を確保することは、責任ある展開において極めて重要である。しかし、既存の評価では、性能を優先し、失敗モードの特定が軽視されることが多い。本論文では、Phareという多言語診断フレームワークを導入し、LLMの行動を3つの重要な次元(幻覚と信頼性、社会的バイアス、有害なコンテンツ生成)にわたって探査・評価する。17の最先端LLMを評価した結果、おべっか、プロンプトへの感度、ステレオタイプの再生など、すべての安全性次元にわたる体系的な脆弱性のパターンが明らかになった。Phareは、単にモデルをランク付けするのではなく、これらの特定の失敗モードを強調することで、研究者や実務者に、より堅牢で整合性があり信頼性の高い言語システムを構築するための実践的な洞察を提供する。
English
Ensuring the safety of large language models (LLMs) is critical for
responsible deployment, yet existing evaluations often prioritize performance
over identifying failure modes. We introduce Phare, a multilingual diagnostic
framework to probe and evaluate LLM behavior across three critical dimensions:
hallucination and reliability, social biases, and harmful content generation.
Our evaluation of 17 state-of-the-art LLMs reveals patterns of systematic
vulnerabilities across all safety dimensions, including sycophancy, prompt
sensitivity, and stereotype reproduction. By highlighting these specific
failure modes rather than simply ranking models, Phare provides researchers and
practitioners with actionable insights to build more robust, aligned, and
trustworthy language systems.Summary
AI-Generated Summary