ChatPaper.aiChatPaper

with Distance Measures Die Entwicklung von Modellen zur Erfassung von Schreibstilen ist ein wichtiger Aspekt der Forschung im Bereich der natürlichen Sprachverarbeitung. In dieser Arbeit führen wir mStyleDistance ein, einen Ansatz zur Erzeugung mehrsprachiger Stilembeddings und deren Bewertung mithilfe von Distanzmaßen. Wir untersuchen die Fähigkeit unseres Modells, stilistische Unterschiede in verschiedenen Sprachen zu erfassen und zu quantifizieren. Unsere Ergebnisse zeigen, dass mStyleDistance effektiv stilistische Merkmale über Sprachen hinweg erfassen kann und dass die verwendeten Distanzmaße eine zuverlässige Bewertung der stilistischen Ähnlichkeit ermöglichen. Dieser Ansatz eröffnet neue Möglichkeiten für die Analyse und den Vergleich von Schreibstilen in multilingualen Kontexten.

mStyleDistance: Multilingual Style Embeddings and their Evaluation

February 21, 2025
Autoren: Justin Qiu, Jiacheng Zhu, Ajay Patel, Marianna Apidianaki, Chris Callison-Burch
cs.AI

Zusammenfassung

Style Embeddings sind nützlich für stilistische Analysen und Stiltransfer; bisher wurden jedoch nur englische Style Embeddings veröffentlicht. Wir stellen Multilingual StyleDistance (mStyleDistance) vor, ein multilinguales Style-Embedding-Modell, das mit synthetischen Daten und kontrastivem Lernen trainiert wurde. Wir trainieren das Modell anhand von Daten aus neun Sprachen und erstellen einen multilingualen STEL-or-Content-Benchmark (Wegmann et al., 2022), der zur Bewertung der Qualität der Embeddings dient. Außerdem setzen wir unsere Embeddings in einer Autorschaftsverifikationsaufgabe ein, die verschiedene Sprachen umfasst. Unsere Ergebnisse zeigen, dass mStyleDistance-Embeddings bestehende Modelle in diesen multilingualen Stil-Benchmarks übertreffen und gut auf unbekannte Merkmale und Sprachen generalisieren. Unser Modell ist öffentlich unter https://huggingface.co/StyleDistance/mstyledistance verfügbar.
English
Style embeddings are useful for stylistic analysis and style transfer; however, only English style embeddings have been made available. We introduce Multilingual StyleDistance (mStyleDistance), a multilingual style embedding model trained using synthetic data and contrastive learning. We train the model on data from nine languages and create a multilingual STEL-or-Content benchmark (Wegmann et al., 2022) that serves to assess the embeddings' quality. We also employ our embeddings in an authorship verification task involving different languages. Our results show that mStyleDistance embeddings outperform existing models on these multilingual style benchmarks and generalize well to unseen features and languages. We make our model publicly available at https://huggingface.co/StyleDistance/mstyledistance .

Summary

AI-Generated Summary

PDF32February 24, 2025