ChatPaper.aiChatPaper

Phare: Una Sonda di Sicurezza per Modelli Linguistici di Grande Dimensione

Phare: A Safety Probe for Large Language Models

May 16, 2025
Autori: Pierre Le Jeune, Benoît Malézieux, Weixuan Xiao, Matteo Dora
cs.AI

Abstract

Garantire la sicurezza dei grandi modelli linguistici (LLM) è fondamentale per un dispiegamento responsabile, tuttavia le valutazioni esistenti spesso privilegiano le prestazioni rispetto all'identificazione delle modalità di fallimento. Introduciamo Phare, un framework diagnostico multilingue per analizzare e valutare il comportamento degli LLM lungo tre dimensioni critiche: allucinazioni e affidabilità, pregiudizi sociali e generazione di contenuti dannosi. La nostra valutazione di 17 LLM all'avanguardia rivela schemi di vulnerabilità sistematiche in tutte le dimensioni di sicurezza, inclusa la sottomissione, la sensibilità ai prompt e la riproduzione di stereotipi. Evidenziando queste specifiche modalità di fallimento anziché limitarsi a classificare i modelli, Phare fornisce a ricercatori e professionisti spunti operativi per costruire sistemi linguistici più robusti, allineati e affidabili.
English
Ensuring the safety of large language models (LLMs) is critical for responsible deployment, yet existing evaluations often prioritize performance over identifying failure modes. We introduce Phare, a multilingual diagnostic framework to probe and evaluate LLM behavior across three critical dimensions: hallucination and reliability, social biases, and harmful content generation. Our evaluation of 17 state-of-the-art LLMs reveals patterns of systematic vulnerabilities across all safety dimensions, including sycophancy, prompt sensitivity, and stereotype reproduction. By highlighting these specific failure modes rather than simply ranking models, Phare provides researchers and practitioners with actionable insights to build more robust, aligned, and trustworthy language systems.
PDF72May 21, 2025