Evaluar el Sesgo sin Conjuntos de Pruebas Manuales: Una Perspectiva de Representación de Conceptos para Modelos de Lenguaje de Gran Escala
Evaluate Bias without Manual Test Sets: A Concept Representation Perspective for LLMs
May 21, 2025
Autores: Lang Gao, Kaiyang Wan, Wei Liu, Chenxi Wang, Zirui Song, Zixiang Xu, Yanbo Wang, Veselin Stoyanov, Xiuying Chen
cs.AI
Resumen
El sesgo en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) socava significativamente su fiabilidad y equidad. Nos enfocamos en una forma común de sesgo: cuando dos conceptos de referencia en el espacio conceptual del modelo, como las polaridades de sentimiento (por ejemplo, "positivo" y "negativo"), están correlacionados de manera asimétrica con un tercer concepto objetivo, como un aspecto de revisión, el modelo exhibe un sesgo no intencionado. Por ejemplo, la comprensión de "comida" no debería inclinarse hacia ningún sentimiento particular. Los métodos existentes de evaluación de sesgos analizan las diferencias de comportamiento de los LLMs mediante la construcción de datos etiquetados para diferentes grupos sociales y midiendo las respuestas del modelo entre ellos, un proceso que requiere un esfuerzo humano considerable y captura solo un conjunto limitado de conceptos sociales. Para superar estas limitaciones, proponemos BiasLens, un marco de análisis de sesgos sin necesidad de conjuntos de prueba basado en la estructura del espacio vectorial del modelo. BiasLens combina Vectores de Activación de Conceptos (CAVs) con Autoencoders Dispersos (SAEs) para extraer representaciones conceptuales interpretables, y cuantifica el sesgo midiendo la variación en la similitud representacional entre el concepto objetivo y cada uno de los conceptos de referencia. Incluso sin datos etiquetados, BiasLens muestra una fuerte concordancia con las métricas tradicionales de evaluación de sesgos (correlación de Spearman r > 0.85). Además, BiasLens revela formas de sesgo que son difíciles de detectar utilizando métodos existentes. Por ejemplo, en escenarios clínicos simulados, el estado de seguro de un paciente puede hacer que el LLM produzca evaluaciones diagnósticas sesgadas. En general, BiasLens ofrece un paradigma escalable, interpretable y eficiente para la detección de sesgos, allanando el camino para mejorar la equidad y la transparencia en los LLMs.
English
Bias in Large Language Models (LLMs) significantly undermines their
reliability and fairness. We focus on a common form of bias: when two reference
concepts in the model's concept space, such as sentiment polarities (e.g.,
"positive" and "negative"), are asymmetrically correlated with a third, target
concept, such as a reviewing aspect, the model exhibits unintended bias. For
instance, the understanding of "food" should not skew toward any particular
sentiment. Existing bias evaluation methods assess behavioral differences of
LLMs by constructing labeled data for different social groups and measuring
model responses across them, a process that requires substantial human effort
and captures only a limited set of social concepts. To overcome these
limitations, we propose BiasLens, a test-set-free bias analysis framework based
on the structure of the model's vector space. BiasLens combines Concept
Activation Vectors (CAVs) with Sparse Autoencoders (SAEs) to extract
interpretable concept representations, and quantifies bias by measuring the
variation in representational similarity between the target concept and each of
the reference concepts. Even without labeled data, BiasLens shows strong
agreement with traditional bias evaluation metrics (Spearman correlation r >
0.85). Moreover, BiasLens reveals forms of bias that are difficult to detect
using existing methods. For example, in simulated clinical scenarios, a
patient's insurance status can cause the LLM to produce biased diagnostic
assessments. Overall, BiasLens offers a scalable, interpretable, and efficient
paradigm for bias discovery, paving the way for improving fairness and
transparency in LLMs.Summary
AI-Generated Summary