ChatPaper.aiChatPaper

DialectGen: Valutazione e Miglioramento della Robustezza Dialettale nella Generazione Multimodale

DialectGen: Benchmarking and Improving Dialect Robustness in Multimodal Generation

October 16, 2025
Autori: Yu Zhou, Sohyun An, Haikang Deng, Da Yin, Clark Peng, Cho-Jui Hsieh, Kai-Wei Chang, Nanyun Peng
cs.AI

Abstract

Le lingue di contatto come l'inglese presentano ricche variazioni regionali sotto forma di dialetti, spesso utilizzati da parlanti dialettali che interagiscono con modelli generativi. Tuttavia, i modelli generativi multimodali possono produrre efficacemente contenuti a partire da input testuali dialettali? In questo lavoro, affrontiamo questa questione costruendo un nuovo benchmark su larga scala che copre sei comuni dialetti inglesi. Collaboriamo con parlanti dialettali per raccogliere e verificare oltre 4200 prompt unici e valutiamo 17 modelli generativi di immagini e video. I risultati delle nostre valutazioni automatiche e umane mostrano che gli attuali modelli generativi multimodali all'avanguardia subiscono un degrado delle prestazioni compreso tra il 32,26% e il 48,17% quando viene utilizzata una singola parola dialettale nel prompt. Metodi comuni di mitigazione come il fine-tuning e la riscrittura dei prompt possono migliorare le prestazioni sui dialetti solo in misura limitata (< 7%), rischiando al contempo di causare un significativo degrado delle prestazioni nell'inglese standard americano (SAE). A tal fine, progettiamo una strategia generale di mitigazione basata su encoder per modelli generativi multimodali. Il nostro metodo insegna al modello a riconoscere nuove caratteristiche dialettali preservando le prestazioni in SAE. Esperimenti su modelli come Stable Diffusion 1.5 dimostrano che il nostro metodo è in grado di aumentare simultaneamente le prestazioni su cinque dialetti fino a livelli paragonabili a SAE (+34,4%), con un costo quasi nullo per le prestazioni in SAE.
English
Contact languages like English exhibit rich regional variations in the form of dialects, which are often used by dialect speakers interacting with generative models. However, can multimodal generative models effectively produce content given dialectal textual input? In this work, we study this question by constructing a new large-scale benchmark spanning six common English dialects. We work with dialect speakers to collect and verify over 4200 unique prompts and evaluate on 17 image and video generative models. Our automatic and human evaluation results show that current state-of-the-art multimodal generative models exhibit 32.26% to 48.17% performance degradation when a single dialect word is used in the prompt. Common mitigation methods such as fine-tuning and prompt rewriting can only improve dialect performance by small margins (< 7%), while potentially incurring significant performance degradation in Standard American English (SAE). To this end, we design a general encoder-based mitigation strategy for multimodal generative models. Our method teaches the model to recognize new dialect features while preserving SAE performance. Experiments on models such as Stable Diffusion 1.5 show that our method is able to simultaneously raise performance on five dialects to be on par with SAE (+34.4%), while incurring near zero cost to SAE performance.
PDF52October 17, 2025