ChatPaper.aiChatPaper

DialectGen: Benchmarken en Verbeteren van Dialectrobuustheid in Multimodale Generatie

DialectGen: Benchmarking and Improving Dialect Robustness in Multimodal Generation

October 16, 2025
Auteurs: Yu Zhou, Sohyun An, Haikang Deng, Da Yin, Clark Peng, Cho-Jui Hsieh, Kai-Wei Chang, Nanyun Peng
cs.AI

Samenvatting

Contacttalen zoals Engels vertonen rijke regionale variaties in de vorm van dialecten, die vaak worden gebruikt door dialectsprekers die interacteren met generatieve modellen. Echter, kunnen multimodale generatieve modellen effectief content produceren op basis van dialectale tekstuele input? In dit werk bestuderen we deze vraag door een nieuwe grootschalige benchmark te construeren die zes veelvoorkomende Engelse dialecten omvat. We werken samen met dialectsprekers om meer dan 4200 unieke prompts te verzamelen en te verifiëren, en evalueren 17 beeld- en videogeneratieve modellen. Onze automatische en menselijke evaluatieresultaten tonen aan dat de huidige state-of-the-art multimodale generatieve modellen een prestatieverlies van 32,26% tot 48,17% vertonen wanneer een enkel dialectwoord in de prompt wordt gebruikt. Veelgebruikte mitigatiemethoden zoals fine-tuning en het herschrijven van prompts kunnen de dialectprestaties slechts in geringe mate verbeteren (< 7%), terwijl ze mogelijk aanzienlijke prestatieverliezen in Standaard Amerikaans Engels (SAE) veroorzaken. Daarom ontwerpen we een algemene encoder-gebaseerde mitigatiestrategie voor multimodale generatieve modellen. Onze methode leert het model nieuwe dialectkenmerken te herkennen terwijl de SAE-prestaties behouden blijven. Experimenten met modellen zoals Stable Diffusion 1.5 laten zien dat onze methode de prestaties op vijf dialecten gelijktijdig kan verhogen tot op het niveau van SAE (+34,4%), terwijl de SAE-prestaties vrijwel geen kosten ondervinden.
English
Contact languages like English exhibit rich regional variations in the form of dialects, which are often used by dialect speakers interacting with generative models. However, can multimodal generative models effectively produce content given dialectal textual input? In this work, we study this question by constructing a new large-scale benchmark spanning six common English dialects. We work with dialect speakers to collect and verify over 4200 unique prompts and evaluate on 17 image and video generative models. Our automatic and human evaluation results show that current state-of-the-art multimodal generative models exhibit 32.26% to 48.17% performance degradation when a single dialect word is used in the prompt. Common mitigation methods such as fine-tuning and prompt rewriting can only improve dialect performance by small margins (< 7%), while potentially incurring significant performance degradation in Standard American English (SAE). To this end, we design a general encoder-based mitigation strategy for multimodal generative models. Our method teaches the model to recognize new dialect features while preserving SAE performance. Experiments on models such as Stable Diffusion 1.5 show that our method is able to simultaneously raise performance on five dialects to be on par with SAE (+34.4%), while incurring near zero cost to SAE performance.
PDF52October 17, 2025