Phare: Una Sonda de Seguridad para Modelos de Lenguaje a Gran Escala
Phare: A Safety Probe for Large Language Models
May 16, 2025
Autores: Pierre Le Jeune, Benoît Malézieux, Weixuan Xiao, Matteo Dora
cs.AI
Resumen
Garantizar la seguridad de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) es fundamental para su implementación responsable; sin embargo, las evaluaciones existentes suelen priorizar el rendimiento sobre la identificación de modos de fallo. Presentamos Phare, un marco de diagnóstico multilingüe para explorar y evaluar el comportamiento de los LLMs en tres dimensiones críticas: alucinación y fiabilidad, sesgos sociales y generación de contenido dañino. Nuestra evaluación de 17 LLMs de última generación revela patrones de vulnerabilidades sistemáticas en todas las dimensiones de seguridad, incluyendo la adulación, la sensibilidad a las indicaciones y la reproducción de estereotipos. Al destacar estos modos de fallo específicos en lugar de simplemente clasificar los modelos, Phare proporciona a investigadores y profesionales conocimientos prácticos para construir sistemas de lenguaje más robustos, alineados y confiables.
English
Ensuring the safety of large language models (LLMs) is critical for
responsible deployment, yet existing evaluations often prioritize performance
over identifying failure modes. We introduce Phare, a multilingual diagnostic
framework to probe and evaluate LLM behavior across three critical dimensions:
hallucination and reliability, social biases, and harmful content generation.
Our evaluation of 17 state-of-the-art LLMs reveals patterns of systematic
vulnerabilities across all safety dimensions, including sycophancy, prompt
sensitivity, and stereotype reproduction. By highlighting these specific
failure modes rather than simply ranking models, Phare provides researchers and
practitioners with actionable insights to build more robust, aligned, and
trustworthy language systems.Summary
AI-Generated Summary