ChatPaper.aiChatPaper

Phare : Une sonde de sécurité pour les grands modèles de langage

Phare: A Safety Probe for Large Language Models

May 16, 2025
Auteurs: Pierre Le Jeune, Benoît Malézieux, Weixuan Xiao, Matteo Dora
cs.AI

Résumé

Garantir la sécurité des grands modèles de langage (LLM) est essentiel pour un déploiement responsable, mais les évaluations existantes privilégient souvent la performance plutôt que l'identification des modes de défaillance. Nous présentons Phare, un cadre de diagnostic multilingue pour explorer et évaluer le comportement des LLM selon trois dimensions critiques : l'hallucination et la fiabilité, les biais sociaux, et la génération de contenus nuisibles. Notre évaluation de 17 LLM de pointe révèle des schémas de vulnérabilités systématiques dans toutes les dimensions de sécurité, incluant la complaisance, la sensibilité aux prompts et la reproduction de stéréotypes. En mettant en lumière ces modes de défaillance spécifiques plutôt que de simplement classer les modèles, Phare offre aux chercheurs et aux praticiens des insights actionnables pour construire des systèmes de langage plus robustes, alignés et dignes de confiance.
English
Ensuring the safety of large language models (LLMs) is critical for responsible deployment, yet existing evaluations often prioritize performance over identifying failure modes. We introduce Phare, a multilingual diagnostic framework to probe and evaluate LLM behavior across three critical dimensions: hallucination and reliability, social biases, and harmful content generation. Our evaluation of 17 state-of-the-art LLMs reveals patterns of systematic vulnerabilities across all safety dimensions, including sycophancy, prompt sensitivity, and stereotype reproduction. By highlighting these specific failure modes rather than simply ranking models, Phare provides researchers and practitioners with actionable insights to build more robust, aligned, and trustworthy language systems.

Summary

AI-Generated Summary

PDF41May 21, 2025