ChatPaper.aiChatPaper

DialectGen: Avaliação e Melhoria da Robustez Dialetal na Geração Multimodal

DialectGen: Benchmarking and Improving Dialect Robustness in Multimodal Generation

October 16, 2025
Autores: Yu Zhou, Sohyun An, Haikang Deng, Da Yin, Clark Peng, Cho-Jui Hsieh, Kai-Wei Chang, Nanyun Peng
cs.AI

Resumo

Línguas de contato como o inglês exibem ricas variações regionais na forma de dialetos, que são frequentemente utilizados por falantes de dialetos ao interagir com modelos generativos. No entanto, os modelos generativos multimodais conseguem produzir conteúdo de forma eficaz a partir de entradas textuais dialetais? Neste trabalho, investigamos essa questão construindo um novo benchmark em larga escala que abrange seis dialetos comuns do inglês. Trabalhamos com falantes de dialetos para coletar e verificar mais de 4200 prompts únicos e avaliamos 17 modelos generativos de imagem e vídeo. Nossos resultados de avaliação automática e humana mostram que os modelos generativos multimodais state-of-the-art atuais apresentam uma degradação de desempenho de 32,26% a 48,17% quando uma única palavra dialetal é usada no prompt. Métodos comuns de mitigação, como fine-tuning e reescrita de prompts, só conseguem melhorar o desempenho em dialetos em pequenas margens (< 7%), enquanto potencialmente causam uma degradação significativa no inglês americano padrão (Standard American English - SAE). Para isso, projetamos uma estratégia geral de mitigação baseada em codificador para modelos generativos multimodais. Nosso método ensina o modelo a reconhecer novas características dialetais enquanto preserva o desempenho em SAE. Experimentos em modelos como o Stable Diffusion 1.5 mostram que nosso método é capaz de elevar simultaneamente o desempenho em cinco dialetos para níveis equivalentes ao SAE (+34,4%), com um custo quase nulo para o desempenho em SAE.
English
Contact languages like English exhibit rich regional variations in the form of dialects, which are often used by dialect speakers interacting with generative models. However, can multimodal generative models effectively produce content given dialectal textual input? In this work, we study this question by constructing a new large-scale benchmark spanning six common English dialects. We work with dialect speakers to collect and verify over 4200 unique prompts and evaluate on 17 image and video generative models. Our automatic and human evaluation results show that current state-of-the-art multimodal generative models exhibit 32.26% to 48.17% performance degradation when a single dialect word is used in the prompt. Common mitigation methods such as fine-tuning and prompt rewriting can only improve dialect performance by small margins (< 7%), while potentially incurring significant performance degradation in Standard American English (SAE). To this end, we design a general encoder-based mitigation strategy for multimodal generative models. Our method teaches the model to recognize new dialect features while preserving SAE performance. Experiments on models such as Stable Diffusion 1.5 show that our method is able to simultaneously raise performance on five dialects to be on par with SAE (+34.4%), while incurring near zero cost to SAE performance.
PDF52December 21, 2025