Phare: Een Veiligheidsonderzoek voor Grote Taalmodellen
Phare: A Safety Probe for Large Language Models
May 16, 2025
Auteurs: Pierre Le Jeune, Benoît Malézieux, Weixuan Xiao, Matteo Dora
cs.AI
Samenvatting
Het waarborgen van de veiligheid van grote taalmodellen (LLM's) is cruciaal voor een verantwoorde inzet, maar bestaande evaluaties richten zich vaak meer op prestaties dan op het identificeren van faalmodi. Wij introduceren Phare, een meertalig diagnostisch raamwerk om het gedrag van LLM's te onderzoeken en te evalueren op drie kritieke dimensies: hallucinatie en betrouwbaarheid, sociale vooroordelen, en het genereren van schadelijke inhoud. Onze evaluatie van 17 state-of-the-art LLM's onthult patronen van systematische kwetsbaarheden op alle veiligheidsdimensies, waaronder slaafs gedrag, gevoeligheid voor prompts, en het reproduceren van stereotypen. Door deze specifieke faalmodi te benadrukken in plaats van simpelweg modellen te rangschikken, biedt Phare onderzoekers en praktijkmensen bruikbare inzichten om robuustere, beter afgestemde en betrouwbaardere taalsystemen te bouwen.
English
Ensuring the safety of large language models (LLMs) is critical for
responsible deployment, yet existing evaluations often prioritize performance
over identifying failure modes. We introduce Phare, a multilingual diagnostic
framework to probe and evaluate LLM behavior across three critical dimensions:
hallucination and reliability, social biases, and harmful content generation.
Our evaluation of 17 state-of-the-art LLMs reveals patterns of systematic
vulnerabilities across all safety dimensions, including sycophancy, prompt
sensitivity, and stereotype reproduction. By highlighting these specific
failure modes rather than simply ranking models, Phare provides researchers and
practitioners with actionable insights to build more robust, aligned, and
trustworthy language systems.Summary
AI-Generated Summary