Uma Receita Empírica para o Reconhecimento Universal de Fonemas

Resumo

A reconhecção fonética (RF) é um facilitador crucial para tarefas de processamento de fala multilingue e de baixos recursos, contudo, um desempenho robusto permanece difícil de alcançar. Modelos de alto desempenho focados no inglês não generalizam entre línguas, enquanto os modelos multilingues subutilizam representações pré-treinadas. Também permanece pouco claro como a escala de dados, a arquitetura e o objetivo de treino contribuem para a RF multilingue. Apresentamos o PhoneticXEUS -- treinado com dados multilingues em larga escala e alcançando desempenho de última geração tanto em fala multilingue (17,7% TEF) quanto em fala inglesa com sotaque (10,6% TEF). Através de ablações controladas com avaliações em mais de 100 línguas sob um esquema unificado, estabelecemos empiricamente a nossa receita de treino e quantificamos o impacto das representações de autoaprendizagem, da escala de dados e dos objetivos de perda. Adicionalmente, analisamos padrões de erro entre famílias linguísticas, fala com sotaque e características articulatórias. Todos os dados e código são disponibilizados abertamente.

English

Phone recognition (PR) is a key enabler of multilingual and low-resource speech processing tasks, yet robust performance remains elusive. Highly performant English-focused models do not generalize across languages, while multilingual models underutilize pretrained representations. It also remains unclear how data scale, architecture, and training objective contribute to multilingual PR. We present PhoneticXEUS -- trained on large-scale multilingual data and achieving state-of-the-art performance on both multilingual (17.7% PFER) and accented English speech (10.6% PFER). Through controlled ablations with evaluations across 100+ languages under a unified scheme, we empirically establish our training recipe and quantify the impact of SSL representations, data scale, and loss objectives. In addition, we analyze error patterns across language families, accented speech, and articulatory features. All data and code are released openly.

Uma Receita Empírica para o Reconhecimento Universal de Fonemas

An Empirical Recipe for Universal Phone Recognition

Resumo

Support