ChatPaper.aiChatPaper

mStyleDistance: 다국어 스타일 임베딩 및 평가

mStyleDistance: Multilingual Style Embeddings and their Evaluation

February 21, 2025
저자: Justin Qiu, Jiacheng Zhu, Ajay Patel, Marianna Apidianaki, Chris Callison-Burch
cs.AI

초록

스타일 임베딩은 스타일 분석과 스타일 변환에 유용하지만, 현재까지는 영어 스타일 임베딩만이 공개되어 있습니다. 우리는 합성 데이터와 대조 학습(contrastive learning)을 사용하여 훈련된 다국어 스타일 임베딩 모델인 Multilingual StyleDistance(mStyleDistance)를 소개합니다. 이 모델은 9개 언어의 데이터로 훈련되었으며, 임베딩의 품질을 평가하기 위한 다국어 STEL-or-Content 벤치마크(Wegmann et al., 2022)를 구축했습니다. 또한, 우리는 다양한 언어를 포함한 저자 검증 작업에서 이 임베딩을 활용했습니다. 실험 결과, mStyleDistance 임베딩은 이러한 다국어 스타일 벤치마크에서 기존 모델들을 능가하며, 보지 못한 특징과 언어에 대해서도 잘 일반화되는 것을 확인했습니다. 우리는 이 모델을 https://huggingface.co/StyleDistance/mstyledistance 에 공개하였습니다.
English
Style embeddings are useful for stylistic analysis and style transfer; however, only English style embeddings have been made available. We introduce Multilingual StyleDistance (mStyleDistance), a multilingual style embedding model trained using synthetic data and contrastive learning. We train the model on data from nine languages and create a multilingual STEL-or-Content benchmark (Wegmann et al., 2022) that serves to assess the embeddings' quality. We also employ our embeddings in an authorship verification task involving different languages. Our results show that mStyleDistance embeddings outperform existing models on these multilingual style benchmarks and generalize well to unseen features and languages. We make our model publicly available at https://huggingface.co/StyleDistance/mstyledistance .

Summary

AI-Generated Summary

PDF32February 24, 2025