Qual è il Danno? Quantificare l'Impatto Tangibile del Bias di Genere nella Traduzione Automatica con uno Studio Centrato sull'Umano
What the Harm? Quantifying the Tangible Impact of Gender Bias in Machine Translation with a Human-centered Study
October 1, 2024
Autori: Beatrice Savoldi, Sara Papi, Matteo Negri, Ana Guerberof, Luisa Bentivogli
cs.AI
Abstract
Il bias di genere nella traduzione automatica (MT) è riconosciuto come un problema che può danneggiare le persone e la società. Eppure, gli avanzamenti nel settore coinvolgono raramente le persone, gli utenti finali della MT, o informano su come potrebbero essere influenzati dalle tecnologie di traduzione con bias. Le valutazioni attuali sono spesso limitate a metodi automatici, che offrono una stima opaca di quale potrebbe essere l'impatto a valle delle disparità di genere. Conduciamo uno studio umano-centrico esteso per esaminare se e in che misura il bias nella MT comporta danni con costi tangibili, come disparità nella qualità del servizio tra donne e uomini. A questo scopo, raccogliamo dati comportamentali da 90 partecipanti, che hanno post-editato le traduzioni MT per garantire una corretta traduzione di genere. Attraverso diversi dataset, lingue e tipi di utenti, il nostro studio mostra che la post-edizione femminile richiede significativamente più sforzo tecnico e temporale, corrispondente anche a costi finanziari più elevati. Tuttavia, le attuali misurazioni del bias non riflettono le disparità trovate. I nostri risultati sostengono approcci centrati sull'essere umano che possono informare sull'impatto sociale del bias.
English
Gender bias in machine translation (MT) is recognized as an issue that can
harm people and society. And yet, advancements in the field rarely involve
people, the final MT users, or inform how they might be impacted by biased
technologies. Current evaluations are often restricted to automatic methods,
which offer an opaque estimate of what the downstream impact of gender
disparities might be. We conduct an extensive human-centered study to examine
if and to what extent bias in MT brings harms with tangible costs, such as
quality of service gaps across women and men. To this aim, we collect
behavioral data from 90 participants, who post-edited MT outputs to ensure
correct gender translation. Across multiple datasets, languages, and types of
users, our study shows that feminine post-editing demands significantly more
technical and temporal effort, also corresponding to higher financial costs.
Existing bias measurements, however, fail to reflect the found disparities. Our
findings advocate for human-centered approaches that can inform the societal
impact of bias.