Evaluar el Sesgo sin Conjuntos de Pruebas Manuales: Una Perspectiva de Representación de Conceptos para Modelos de Lenguaje de Gran Escala

Resumen

El sesgo en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) socava significativamente su fiabilidad y equidad. Nos enfocamos en una forma común de sesgo: cuando dos conceptos de referencia en el espacio conceptual del modelo, como las polaridades de sentimiento (por ejemplo, "positivo" y "negativo"), están correlacionados de manera asimétrica con un tercer concepto objetivo, como un aspecto de revisión, el modelo exhibe un sesgo no intencionado. Por ejemplo, la comprensión de "comida" no debería inclinarse hacia ningún sentimiento particular. Los métodos existentes de evaluación de sesgos analizan las diferencias de comportamiento de los LLMs mediante la construcción de datos etiquetados para diferentes grupos sociales y midiendo las respuestas del modelo entre ellos, un proceso que requiere un esfuerzo humano considerable y captura solo un conjunto limitado de conceptos sociales. Para superar estas limitaciones, proponemos BiasLens, un marco de análisis de sesgos sin necesidad de conjuntos de prueba basado en la estructura del espacio vectorial del modelo. BiasLens combina Vectores de Activación de Conceptos (CAVs) con Autoencoders Dispersos (SAEs) para extraer representaciones conceptuales interpretables, y cuantifica el sesgo midiendo la variación en la similitud representacional entre el concepto objetivo y cada uno de los conceptos de referencia. Incluso sin datos etiquetados, BiasLens muestra una fuerte concordancia con las métricas tradicionales de evaluación de sesgos (correlación de Spearman r > 0.85). Además, BiasLens revela formas de sesgo que son difíciles de detectar utilizando métodos existentes. Por ejemplo, en escenarios clínicos simulados, el estado de seguro de un paciente puede hacer que el LLM produzca evaluaciones diagnósticas sesgadas. En general, BiasLens ofrece un paradigma escalable, interpretable y eficiente para la detección de sesgos, allanando el camino para mejorar la equidad y la transparencia en los LLMs.

English

Bias in Large Language Models (LLMs) significantly undermines their reliability and fairness. We focus on a common form of bias: when two reference concepts in the model's concept space, such as sentiment polarities (e.g., "positive" and "negative"), are asymmetrically correlated with a third, target concept, such as a reviewing aspect, the model exhibits unintended bias. For instance, the understanding of "food" should not skew toward any particular sentiment. Existing bias evaluation methods assess behavioral differences of LLMs by constructing labeled data for different social groups and measuring model responses across them, a process that requires substantial human effort and captures only a limited set of social concepts. To overcome these limitations, we propose BiasLens, a test-set-free bias analysis framework based on the structure of the model's vector space. BiasLens combines Concept Activation Vectors (CAVs) with Sparse Autoencoders (SAEs) to extract interpretable concept representations, and quantifies bias by measuring the variation in representational similarity between the target concept and each of the reference concepts. Even without labeled data, BiasLens shows strong agreement with traditional bias evaluation metrics (Spearman correlation r > 0.85). Moreover, BiasLens reveals forms of bias that are difficult to detect using existing methods. For example, in simulated clinical scenarios, a patient's insurance status can cause the LLM to produce biased diagnostic assessments. Overall, BiasLens offers a scalable, interpretable, and efficient paradigm for bias discovery, paving the way for improving fairness and transparency in LLMs.

Evaluar el Sesgo sin Conjuntos de Pruebas Manuales: Una Perspectiva de Representación de Conceptos para Modelos de Lenguaje de Gran Escala

Evaluate Bias without Manual Test Sets: A Concept Representation Perspective for LLMs

Resumen

Support