Phare: Система мониторинга безопасности для крупных языковых моделей
Phare: A Safety Probe for Large Language Models
May 16, 2025
Авторы: Pierre Le Jeune, Benoît Malézieux, Weixuan Xiao, Matteo Dora
cs.AI
Аннотация
Обеспечение безопасности крупных языковых моделей (LLM) имеет критическое значение для их ответственного внедрения, однако существующие методы оценки часто делают акцент на производительности, а не на выявлении уязвимостей. Мы представляем Phare — многоязычную диагностическую платформу для анализа и оценки поведения LLM по трем ключевым направлениям: галлюцинации и надежность, социальные предубеждения и генерация вредоносного контента. Наше исследование 17 современных LLM выявило систематические уязвимости во всех аспектах безопасности, включая склонность к угодливости, чувствительность к формулировкам запросов и воспроизведение стереотипов. Акцентируя внимание на конкретных уязвимостях, а не просто ранжируя модели, Phare предоставляет исследователям и практикам полезные инсайты для создания более надежных, согласованных и заслуживающих доверия языковых систем.
English
Ensuring the safety of large language models (LLMs) is critical for
responsible deployment, yet existing evaluations often prioritize performance
over identifying failure modes. We introduce Phare, a multilingual diagnostic
framework to probe and evaluate LLM behavior across three critical dimensions:
hallucination and reliability, social biases, and harmful content generation.
Our evaluation of 17 state-of-the-art LLMs reveals patterns of systematic
vulnerabilities across all safety dimensions, including sycophancy, prompt
sensitivity, and stereotype reproduction. By highlighting these specific
failure modes rather than simply ranking models, Phare provides researchers and
practitioners with actionable insights to build more robust, aligned, and
trustworthy language systems.Summary
AI-Generated Summary