Phare: Eine Sicherheitsprüfung für große Sprachmodelle
Phare: A Safety Probe for Large Language Models
May 16, 2025
Autoren: Pierre Le Jeune, Benoît Malézieux, Weixuan Xiao, Matteo Dora
cs.AI
Zusammenfassung
Die Sicherheit großer Sprachmodelle (LLMs) ist entscheidend für einen verantwortungsvollen Einsatz, doch bestehende Bewertungen priorisieren oft die Leistung gegenüber der Identifizierung von Fehlermustern. Wir stellen Phare vor, ein mehrsprachiges Diagnoseframework, um das Verhalten von LLMs in drei kritischen Dimensionen zu untersuchen und zu bewerten: Halluzination und Zuverlässigkeit, soziale Vorurteile sowie die Erzeugung schädlicher Inhalte. Unsere Bewertung von 17 modernsten LLMs zeigt systematische Schwachstellen in allen Sicherheitsdimensionen auf, darunter Sykophantie, Prompt-Empfindlichkeit und die Reproduktion von Stereotypen. Indem Phare diese spezifischen Fehlermuster hervorhebt, anstatt Modelle einfach nur zu bewerten, bietet es Forschern und Praktikern umsetzbare Erkenntnisse, um robustere, besser ausgerichtete und vertrauenswürdigere Sprachsysteme zu entwickeln.
English
Ensuring the safety of large language models (LLMs) is critical for
responsible deployment, yet existing evaluations often prioritize performance
over identifying failure modes. We introduce Phare, a multilingual diagnostic
framework to probe and evaluate LLM behavior across three critical dimensions:
hallucination and reliability, social biases, and harmful content generation.
Our evaluation of 17 state-of-the-art LLMs reveals patterns of systematic
vulnerabilities across all safety dimensions, including sycophancy, prompt
sensitivity, and stereotype reproduction. By highlighting these specific
failure modes rather than simply ranking models, Phare provides researchers and
practitioners with actionable insights to build more robust, aligned, and
trustworthy language systems.Summary
AI-Generated Summary