ChatPaper.aiChatPaper

DialectGen: 다중모드 생성에서의 방언 견고성 벤치마킹 및 개선

DialectGen: Benchmarking and Improving Dialect Robustness in Multimodal Generation

October 16, 2025
저자: Yu Zhou, Sohyun An, Haikang Deng, Da Yin, Clark Peng, Cho-Jui Hsieh, Kai-Wei Chang, Nanyun Peng
cs.AI

초록

영어와 같은 접촉 언어는 방언 형태로 풍부한 지역적 변이를 보이며, 이러한 방언은 생성 모델과 상호작용하는 방언 사용자들에 의해 종종 사용된다. 그러나 다중모드 생성 모델이 방언적 텍스트 입력을 주어졌을 때 효과적으로 콘텐츠를 생성할 수 있을까? 본 연구에서는 이 질문을 탐구하기 위해 여섯 가지 일반적인 영어 방언을 아우르는 새로운 대규모 벤치마크를 구축하였다. 방언 사용자들과 협력하여 4200개 이상의 고유한 프롬프트를 수집 및 검증하고, 17개의 이미지 및 비디오 생성 모델을 평가하였다. 자동 및 인간 평가 결과에 따르면, 현재 최첨단 다중모드 생성 모델들은 프롬프트에 단일 방언 단어가 사용될 경우 32.26%에서 48.17%의 성능 저하를 보인다. 미세 조정 및 프롬프트 재작성과 같은 일반적인 완화 방법은 방언 성능을 소폭 개선(< 7%)할 수 있지만, 표준 미국 영어(SAE)에서의 성능 저하를 초래할 가능성이 있다. 이를 위해, 우리는 다중모드 생성 모델을 위한 일반적인 인코더 기반 완화 전략을 설계하였다. 우리의 방법은 모델이 새로운 방언 특징을 인식하도록 가르치면서 SAE 성능을 보존한다. Stable Diffusion 1.5과 같은 모델에 대한 실험 결과, 우리의 방법은 SAE 성능에 거의 영향을 미치지 않으면서(+0%), 다섯 가지 방언에서의 성능을 SAE 수준으로 동시에 향상시킬 수 있음을 보여준다(+34.4%).
English
Contact languages like English exhibit rich regional variations in the form of dialects, which are often used by dialect speakers interacting with generative models. However, can multimodal generative models effectively produce content given dialectal textual input? In this work, we study this question by constructing a new large-scale benchmark spanning six common English dialects. We work with dialect speakers to collect and verify over 4200 unique prompts and evaluate on 17 image and video generative models. Our automatic and human evaluation results show that current state-of-the-art multimodal generative models exhibit 32.26% to 48.17% performance degradation when a single dialect word is used in the prompt. Common mitigation methods such as fine-tuning and prompt rewriting can only improve dialect performance by small margins (< 7%), while potentially incurring significant performance degradation in Standard American English (SAE). To this end, we design a general encoder-based mitigation strategy for multimodal generative models. Our method teaches the model to recognize new dialect features while preserving SAE performance. Experiments on models such as Stable Diffusion 1.5 show that our method is able to simultaneously raise performance on five dialects to be on par with SAE (+34.4%), while incurring near zero cost to SAE performance.
PDF52October 17, 2025