Phare: Uma Sonda de Segurança para Modelos de Linguagem de Grande Escala

Resumo

Garantir a segurança de modelos de linguagem de grande escala (LLMs) é crucial para uma implantação responsável, mas as avaliações existentes frequentemente priorizam o desempenho em detrimento da identificação de modos de falha. Apresentamos o Phare, uma estrutura de diagnóstico multilíngue para investigar e avaliar o comportamento de LLMs em três dimensões críticas: alucinação e confiabilidade, vieses sociais e geração de conteúdo prejudicial. Nossa avaliação de 17 LLMs de última geração revela padrões de vulnerabilidades sistemáticas em todas as dimensões de segurança, incluindo sifonância, sensibilidade a prompts e reprodução de estereótipos. Ao destacar esses modos específicos de falha em vez de simplesmente classificar os modelos, o Phare oferece aos pesquisadores e profissionais insights acionáveis para construir sistemas de linguagem mais robustos, alinhados e confiáveis.

English

Ensuring the safety of large language models (LLMs) is critical for responsible deployment, yet existing evaluations often prioritize performance over identifying failure modes. We introduce Phare, a multilingual diagnostic framework to probe and evaluate LLM behavior across three critical dimensions: hallucination and reliability, social biases, and harmful content generation. Our evaluation of 17 state-of-the-art LLMs reveals patterns of systematic vulnerabilities across all safety dimensions, including sycophancy, prompt sensitivity, and stereotype reproduction. By highlighting these specific failure modes rather than simply ranking models, Phare provides researchers and practitioners with actionable insights to build more robust, aligned, and trustworthy language systems.

Phare: Uma Sonda de Segurança para Modelos de Linguagem de Grande Escala

Phare: A Safety Probe for Large Language Models

Resumo

Support