ChatPaper.aiChatPaper

Een Empirisch Recept voor Universele Fonemherkenning

An Empirical Recipe for Universal Phone Recognition

March 30, 2026
Auteurs: Shikhar Bharadwaj, Chin-Jou Li, Kwanghee Choi, Eunjung Yeo, William Chen, Shinji Watanabe, David R. Mortensen
cs.AI

Samenvatting

Fonemherkenning (PR) is een cruciale aanjager voor meertalige en data-arme spraakverwerkingstaken, maar robuuste prestaties blijven moeilijk te bereiken. Hoogpresterende modellen die op Engels zijn gericht, generaliseren niet over talen heen, terwijl meertalige modellen vooraf getrainde representaties onvoldoende benutten. Ook is het nog onduidelijk hoe de schaal van data, architectuur en trainingsdoel bijdragen aan meertalige PR. Wij presenteren PhoneticXEUS – getraind op grootschalige meertalige data en met state-of-the-art prestaties op zowel meertalige (17,7% PFER) als Engels met een accent (10,6% PFER). Via gecontroleerde ablatiestudies met evaluaties in meer dan 100 talen onder een uniform schema, leggen we ons trainingsrecept empirisch vast en kwantificeren we de impact van SSL-representaties, dataschaal en verliesfuncties. Daarnaast analyseren we foutpatronen per taalfamilie, bij spraak met een accent, en aan de hand van articulatorische kenmerken. Alle data en code worden openbaar vrijgegeven.
English
Phone recognition (PR) is a key enabler of multilingual and low-resource speech processing tasks, yet robust performance remains elusive. Highly performant English-focused models do not generalize across languages, while multilingual models underutilize pretrained representations. It also remains unclear how data scale, architecture, and training objective contribute to multilingual PR. We present PhoneticXEUS -- trained on large-scale multilingual data and achieving state-of-the-art performance on both multilingual (17.7% PFER) and accented English speech (10.6% PFER). Through controlled ablations with evaluations across 100+ languages under a unified scheme, we empirically establish our training recipe and quantify the impact of SSL representations, data scale, and loss objectives. In addition, we analyze error patterns across language families, accented speech, and articulatory features. All data and code are released openly.
PDF01April 4, 2026