Cuantificación de la Equidad en los LLMs Más Allá de los Tokens: Una Perspectiva Semántica y Estadística

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) suelen generar respuestas con sesgos inherentes, lo que socava su confiabilidad en aplicaciones del mundo real. Los métodos de evaluación existentes a menudo pasan por alto los sesgos en respuestas extensas y la variabilidad intrínseca de las salidas de los LLMs. Para abordar estos desafíos, proponemos FiSCo (Cálculo Semántico de Grano Fino), un marco estadístico novedoso para evaluar la equidad a nivel de grupo en los LLMs mediante la detección de diferencias semánticas sutiles en respuestas extensas entre grupos demográficos. A diferencia de trabajos previos centrados en el análisis de sentimientos o comparaciones a nivel de tokens, FiSCo va más allá del análisis superficial al operar a nivel de afirmaciones, utilizando verificaciones de implicación para evaluar la consistencia del significado entre respuestas. Descomponemos las salidas del modelo en afirmaciones semánticamente distintas y aplicamos pruebas de hipótesis estadísticas para comparar similitudes inter e intragrupo, lo que permite la detección robusta de sesgos sutiles. Formalizamos una nueva definición de equidad contrafáctica a nivel de grupo y validamos FiSCo en conjuntos de datos sintéticos y anotados por humanos que abarcan género, raza y edad. Los experimentos muestran que FiSCo identifica de manera más confiable sesgos matizados mientras reduce el impacto de la variabilidad estocástica de los LLMs, superando diversas métricas de evaluación.

English

Large Language Models (LLMs) often generate responses with inherent biases, undermining their reliability in real-world applications. Existing evaluation methods often overlook biases in long-form responses and the intrinsic variability of LLM outputs. To address these challenges, we propose FiSCo(Fine-grained Semantic Computation), a novel statistical framework to evaluate group-level fairness in LLMs by detecting subtle semantic differences in long-form responses across demographic groups. Unlike prior work focusing on sentiment or token-level comparisons, FiSCo goes beyond surface-level analysis by operating at the claim level, leveraging entailment checks to assess the consistency of meaning across responses. We decompose model outputs into semantically distinct claims and apply statistical hypothesis testing to compare inter- and intra-group similarities, enabling robust detection of subtle biases. We formalize a new group counterfactual fairness definition and validate FiSCo on both synthetic and human-annotated datasets spanning gender, race, and age. Experiments show that FiSco more reliably identifies nuanced biases while reducing the impact of stochastic LLM variability, outperforming various evaluation metrics.

Cuantificación de la Equidad en los LLMs Más Allá de los Tokens: Una Perspectiva Semántica y Estadística

Quantifying Fairness in LLMs Beyond Tokens: A Semantic and Statistical Perspective

Resumen

Support