DialectGen: Benchmarken en Verbeteren van Dialectrobuustheid in Multimodale Generatie
DialectGen: Benchmarking and Improving Dialect Robustness in Multimodal Generation
October 16, 2025
Auteurs: Yu Zhou, Sohyun An, Haikang Deng, Da Yin, Clark Peng, Cho-Jui Hsieh, Kai-Wei Chang, Nanyun Peng
cs.AI
Samenvatting
Contacttalen zoals Engels vertonen rijke regionale variaties in de vorm van dialecten, die vaak worden gebruikt door dialectsprekers die interacteren met generatieve modellen. Echter, kunnen multimodale generatieve modellen effectief content produceren op basis van dialectale tekstuele input? In dit werk bestuderen we deze vraag door een nieuwe grootschalige benchmark te construeren die zes veelvoorkomende Engelse dialecten omvat. We werken samen met dialectsprekers om meer dan 4200 unieke prompts te verzamelen en te verifiëren, en evalueren 17 beeld- en videogeneratieve modellen. Onze automatische en menselijke evaluatieresultaten tonen aan dat de huidige state-of-the-art multimodale generatieve modellen een prestatieverlies van 32,26% tot 48,17% vertonen wanneer een enkel dialectwoord in de prompt wordt gebruikt. Veelgebruikte mitigatiemethoden zoals fine-tuning en het herschrijven van prompts kunnen de dialectprestaties slechts in geringe mate verbeteren (< 7%), terwijl ze mogelijk aanzienlijke prestatieverliezen in Standaard Amerikaans Engels (SAE) veroorzaken. Daarom ontwerpen we een algemene encoder-gebaseerde mitigatiestrategie voor multimodale generatieve modellen. Onze methode leert het model nieuwe dialectkenmerken te herkennen terwijl de SAE-prestaties behouden blijven. Experimenten met modellen zoals Stable Diffusion 1.5 laten zien dat onze methode de prestaties op vijf dialecten gelijktijdig kan verhogen tot op het niveau van SAE (+34,4%), terwijl de SAE-prestaties vrijwel geen kosten ondervinden.
English
Contact languages like English exhibit rich regional variations in the form
of dialects, which are often used by dialect speakers interacting with
generative models. However, can multimodal generative models effectively
produce content given dialectal textual input? In this work, we study this
question by constructing a new large-scale benchmark spanning six common
English dialects. We work with dialect speakers to collect and verify over 4200
unique prompts and evaluate on 17 image and video generative models. Our
automatic and human evaluation results show that current state-of-the-art
multimodal generative models exhibit 32.26% to 48.17% performance degradation
when a single dialect word is used in the prompt. Common mitigation methods
such as fine-tuning and prompt rewriting can only improve dialect performance
by small margins (< 7%), while potentially incurring significant performance
degradation in Standard American English (SAE). To this end, we design a
general encoder-based mitigation strategy for multimodal generative models. Our
method teaches the model to recognize new dialect features while preserving SAE
performance. Experiments on models such as Stable Diffusion 1.5 show that our
method is able to simultaneously raise performance on five dialects to be on
par with SAE (+34.4%), while incurring near zero cost to SAE performance.