Phare: Uma Sonda de Segurança para Modelos de Linguagem de Grande Escala
Phare: A Safety Probe for Large Language Models
May 16, 2025
Autores: Pierre Le Jeune, Benoît Malézieux, Weixuan Xiao, Matteo Dora
cs.AI
Resumo
Garantir a segurança de modelos de linguagem de grande escala (LLMs) é crucial para uma implantação responsável, mas as avaliações existentes frequentemente priorizam o desempenho em detrimento da identificação de modos de falha. Apresentamos o Phare, uma estrutura de diagnóstico multilíngue para investigar e avaliar o comportamento de LLMs em três dimensões críticas: alucinação e confiabilidade, vieses sociais e geração de conteúdo prejudicial. Nossa avaliação de 17 LLMs de última geração revela padrões de vulnerabilidades sistemáticas em todas as dimensões de segurança, incluindo sifonância, sensibilidade a prompts e reprodução de estereótipos. Ao destacar esses modos específicos de falha em vez de simplesmente classificar os modelos, o Phare oferece aos pesquisadores e profissionais insights acionáveis para construir sistemas de linguagem mais robustos, alinhados e confiáveis.
English
Ensuring the safety of large language models (LLMs) is critical for
responsible deployment, yet existing evaluations often prioritize performance
over identifying failure modes. We introduce Phare, a multilingual diagnostic
framework to probe and evaluate LLM behavior across three critical dimensions:
hallucination and reliability, social biases, and harmful content generation.
Our evaluation of 17 state-of-the-art LLMs reveals patterns of systematic
vulnerabilities across all safety dimensions, including sycophancy, prompt
sensitivity, and stereotype reproduction. By highlighting these specific
failure modes rather than simply ranking models, Phare provides researchers and
practitioners with actionable insights to build more robust, aligned, and
trustworthy language systems.