Phare: 대규모 언어 모델을 위한 안전성 프로브
Phare: A Safety Probe for Large Language Models
May 16, 2025
저자: Pierre Le Jeune, Benoît Malézieux, Weixuan Xiao, Matteo Dora
cs.AI
초록
대규모 언어 모델(LLMs)의 안전성을 보장하는 것은 책임 있는 배포를 위해 매우 중요하지만, 기존의 평가는 주로 성능에 초점을 맞추고 실패 모드를 식별하는 데는 소홀한 경향이 있다. 본 연구에서는 환각 및 신뢰성, 사회적 편향, 유해 콘텐츠 생성이라는 세 가지 중요한 차원에서 LLM의 행동을 탐구하고 평가하기 위한 다국어 진단 프레임워크인 Phare를 소개한다. 17개의 최신 LLM에 대한 평가를 통해, 아첨, 프롬프트 민감도, 고정관념 재생산 등 모든 안전 차원에서의 체계적인 취약성 패턴을 발견하였다. 단순히 모델을 순위 매기는 대신 이러한 구체적인 실패 모드를 강조함으로써, Phare는 연구자와 실무자에게 더 견고하고, 정렬된, 신뢰할 수 있는 언어 시스템을 구축하기 위한 실행 가능한 통찰력을 제공한다.
English
Ensuring the safety of large language models (LLMs) is critical for
responsible deployment, yet existing evaluations often prioritize performance
over identifying failure modes. We introduce Phare, a multilingual diagnostic
framework to probe and evaluate LLM behavior across three critical dimensions:
hallucination and reliability, social biases, and harmful content generation.
Our evaluation of 17 state-of-the-art LLMs reveals patterns of systematic
vulnerabilities across all safety dimensions, including sycophancy, prompt
sensitivity, and stereotype reproduction. By highlighting these specific
failure modes rather than simply ranking models, Phare provides researchers and
practitioners with actionable insights to build more robust, aligned, and
trustworthy language systems.Summary
AI-Generated Summary