Phare: Eine Sicherheitsprüfung für große Sprachmodelle

papers.abstract

Die Sicherheit großer Sprachmodelle (LLMs) ist entscheidend für einen verantwortungsvollen Einsatz, doch bestehende Bewertungen priorisieren oft die Leistung gegenüber der Identifizierung von Fehlermustern. Wir stellen Phare vor, ein mehrsprachiges Diagnoseframework, um das Verhalten von LLMs in drei kritischen Dimensionen zu untersuchen und zu bewerten: Halluzination und Zuverlässigkeit, soziale Vorurteile sowie die Erzeugung schädlicher Inhalte. Unsere Bewertung von 17 modernsten LLMs zeigt systematische Schwachstellen in allen Sicherheitsdimensionen auf, darunter Sykophantie, Prompt-Empfindlichkeit und die Reproduktion von Stereotypen. Indem Phare diese spezifischen Fehlermuster hervorhebt, anstatt Modelle einfach nur zu bewerten, bietet es Forschern und Praktikern umsetzbare Erkenntnisse, um robustere, besser ausgerichtete und vertrauenswürdigere Sprachsysteme zu entwickeln.

English

Ensuring the safety of large language models (LLMs) is critical for responsible deployment, yet existing evaluations often prioritize performance over identifying failure modes. We introduce Phare, a multilingual diagnostic framework to probe and evaluate LLM behavior across three critical dimensions: hallucination and reliability, social biases, and harmful content generation. Our evaluation of 17 state-of-the-art LLMs reveals patterns of systematic vulnerabilities across all safety dimensions, including sycophancy, prompt sensitivity, and stereotype reproduction. By highlighting these specific failure modes rather than simply ranking models, Phare provides researchers and practitioners with actionable insights to build more robust, aligned, and trustworthy language systems.

Phare: Eine Sicherheitsprüfung für große Sprachmodelle

Phare: A Safety Probe for Large Language Models

papers.abstract

Support