Ein empirisches Rezept für universelle Phonemerkennung

Zusammenfassung

Phonetikerfassung (PR) ist ein zentraler Ermöglicher für multilinguale und ressourcenarme Sprachverarbeitungsaufgaben, dennoch bleibt eine robuste Leistung schwer fassbar. Hochleistungsfähige, auf Englisch fokussierte Modelle generalisieren nicht über Sprachen hinweg, während multilinguale Modelle vortrainierte Repräsentationen nicht voll ausschöpfen. Es ist ebenfalls unklar, wie Datenumfang, Architektur und Trainingsziel zur multilingualen PR beitragen. Wir stellen PhoneticXEUS vor – trainiert auf großvolumigen multilingualen Daten und mit state-of-the-art Leistung sowohl bei multilingualer (17,7 % PFER) als auch bei akzentbehafteter englischer Sprache (10,6 % PFER). Durch kontrollierte Ablationsstudien mit Auswertungen über 100+ Sprachen hinweg unter einem einheitlichen Schema ermitteln wir empirisch unser Trainingsrezept und quantifizieren den Einfluss von SSL-Repräsentationen, Datenumfang und Verlustfunktionen. Zusätzlich analysieren wir Fehlermuster über Sprachfamilien, akzentuierte Sprache und artikulatorische Merkmale hinweg. Alle Daten und Codes werden offen bereitgestellt.

English

Phone recognition (PR) is a key enabler of multilingual and low-resource speech processing tasks, yet robust performance remains elusive. Highly performant English-focused models do not generalize across languages, while multilingual models underutilize pretrained representations. It also remains unclear how data scale, architecture, and training objective contribute to multilingual PR. We present PhoneticXEUS -- trained on large-scale multilingual data and achieving state-of-the-art performance on both multilingual (17.7% PFER) and accented English speech (10.6% PFER). Through controlled ablations with evaluations across 100+ languages under a unified scheme, we empirically establish our training recipe and quantify the impact of SSL representations, data scale, and loss objectives. In addition, we analyze error patterns across language families, accented speech, and articulatory features. All data and code are released openly.

Ein empirisches Rezept für universelle Phonemerkennung

An Empirical Recipe for Universal Phone Recognition

Zusammenfassung

Support