mStyleDistance: 多言語スタイル埋め込みとその評価
mStyleDistance: Multilingual Style Embeddings and their Evaluation
February 21, 2025
著者: Justin Qiu, Jiacheng Zhu, Ajay Patel, Marianna Apidianaki, Chris Callison-Burch
cs.AI
要旨
スタイル埋め込みは、文体分析やスタイル転送に有用であるが、これまでに公開されているのは英語のスタイル埋め込みに限られていた。本研究では、合成データと対照学習を用いて訓練された多言語スタイル埋め込みモデルであるMultilingual StyleDistance(mStyleDistance)を提案する。このモデルは9言語のデータを用いて訓練され、埋め込みの品質を評価するための多言語STEL-or-Contentベンチマーク(Wegmann et al., 2022)を構築した。さらに、異なる言語を対象とした著者検証タスクにおいて、本モデルの埋め込みを適用した。その結果、mStyleDistanceの埋め込みは、これらの多言語スタイルベンチマークにおいて既存のモデルを上回り、未知の特徴や言語に対しても良好な汎化性能を示すことが確認された。本モデルはhttps://huggingface.co/StyleDistance/mstyledistanceで公開されている。
English
Style embeddings are useful for stylistic analysis and style transfer;
however, only English style embeddings have been made available. We introduce
Multilingual StyleDistance (mStyleDistance), a multilingual style embedding
model trained using synthetic data and contrastive learning. We train the model
on data from nine languages and create a multilingual STEL-or-Content benchmark
(Wegmann et al., 2022) that serves to assess the embeddings' quality. We also
employ our embeddings in an authorship verification task involving different
languages. Our results show that mStyleDistance embeddings outperform existing
models on these multilingual style benchmarks and generalize well to unseen
features and languages. We make our model publicly available at
https://huggingface.co/StyleDistance/mstyledistance .Summary
AI-Generated Summary