Cuantificación de la Equidad en los LLMs Más Allá de los Tokens: Una Perspectiva Semántica y Estadística
Quantifying Fairness in LLMs Beyond Tokens: A Semantic and Statistical Perspective
June 23, 2025
Autores: Weijie Xu, Yiwen Wang, Chi Xue, Xiangkun Hu, Xi Fang, Guimin Dong, Chandan K. Reddy
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) suelen generar respuestas con sesgos inherentes, lo que socava su confiabilidad en aplicaciones del mundo real. Los métodos de evaluación existentes a menudo pasan por alto los sesgos en respuestas extensas y la variabilidad intrínseca de las salidas de los LLMs. Para abordar estos desafíos, proponemos FiSCo (Cálculo Semántico de Grano Fino), un marco estadístico novedoso para evaluar la equidad a nivel de grupo en los LLMs mediante la detección de diferencias semánticas sutiles en respuestas extensas entre grupos demográficos. A diferencia de trabajos previos centrados en el análisis de sentimientos o comparaciones a nivel de tokens, FiSCo va más allá del análisis superficial al operar a nivel de afirmaciones, utilizando verificaciones de implicación para evaluar la consistencia del significado entre respuestas. Descomponemos las salidas del modelo en afirmaciones semánticamente distintas y aplicamos pruebas de hipótesis estadísticas para comparar similitudes inter e intragrupo, lo que permite la detección robusta de sesgos sutiles. Formalizamos una nueva definición de equidad contrafáctica a nivel de grupo y validamos FiSCo en conjuntos de datos sintéticos y anotados por humanos que abarcan género, raza y edad. Los experimentos muestran que FiSCo identifica de manera más confiable sesgos matizados mientras reduce el impacto de la variabilidad estocástica de los LLMs, superando diversas métricas de evaluación.
English
Large Language Models (LLMs) often generate responses with inherent biases,
undermining their reliability in real-world applications. Existing evaluation
methods often overlook biases in long-form responses and the intrinsic
variability of LLM outputs. To address these challenges, we propose
FiSCo(Fine-grained Semantic Computation), a novel statistical framework to
evaluate group-level fairness in LLMs by detecting subtle semantic differences
in long-form responses across demographic groups. Unlike prior work focusing on
sentiment or token-level comparisons, FiSCo goes beyond surface-level analysis
by operating at the claim level, leveraging entailment checks to assess the
consistency of meaning across responses. We decompose model outputs into
semantically distinct claims and apply statistical hypothesis testing to
compare inter- and intra-group similarities, enabling robust detection of
subtle biases. We formalize a new group counterfactual fairness definition and
validate FiSCo on both synthetic and human-annotated datasets spanning gender,
race, and age. Experiments show that FiSco more reliably identifies nuanced
biases while reducing the impact of stochastic LLM variability, outperforming
various evaluation metrics.