Speech-to-LaTeX: Novos Modelos e Conjuntos de Dados para Conversão de Equações e Frases Faladas
Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences
August 5, 2025
Autores: Dmitrii Korzh, Dmitrii Tarasov, Artyom Iudin, Elvir Karimov, Matvey Skripkin, Nikita Kuzmin, Andrey Kuznetsov, Oleg Y. Rogov, Ivan Oseledets
cs.AI
Resumo
A conversão de expressões matemáticas faladas é uma tarefa desafiadora que envolve a transcrição da fala em uma representação simbolicamente estruturada, ao mesmo tempo em que aborda a ambiguidade inerente à pronúncia de equações. Embora progressos significativos tenham sido alcançados no reconhecimento automático de fala (ASR) e em modelos de linguagem (LM), o problema de converter matemática falada em LaTeX permanece pouco explorado. Essa tarefa é diretamente aplicável em domínios educacionais e de pesquisa, como a transcrição de aulas ou a criação de anotações. Com base na pós-correção de ASR, trabalhos anteriores exigem duas transcrições, focam apenas em equações isoladas, possuem um conjunto de testes limitado e não fornecem dados de treinamento nem cobertura multilíngue. Para abordar essas questões, apresentamos o primeiro conjunto de dados em grande escala totalmente de código aberto, composto por mais de 66.000 amostras de áudio anotadas manualmente de equações matemáticas e frases em inglês e russo, extraídas de diversos domínios científicos. Além dos modelos de pós-correção de ASR e do prompting de poucos exemplos, aplicamos modelos de linguagem de áudio, demonstrando resultados comparáveis na taxa de erro de caracteres (CER) no benchmark MathSpeech (28% vs. 30%) para a conversão de equações. Em contraste, no benchmark proposto S2L-equations, nossos modelos superam o modelo MathSpeech por uma margem substancial de mais de 40 pontos percentuais, mesmo após considerar os artefatos de formatação LaTeX (27% vs. 64%). Estabelecemos o primeiro benchmark para reconhecimento de frases matemáticas (S2L-sentences) e alcançamos um CER de 40% para equações. Este trabalho estabelece as bases para avanços futuros em IA multimodal, com foco particular no reconhecimento de conteúdo matemático.
English
Conversion of spoken mathematical expressions is a challenging task that
involves transcribing speech into a strictly structured symbolic representation
while addressing the ambiguity inherent in the pronunciation of equations.
Although significant progress has been achieved in automatic speech recognition
(ASR) and language models (LM), the problem of converting spoken mathematics
into LaTeX remains underexplored. This task directly applies to educational and
research domains, such as lecture transcription or note creation. Based on ASR
post-correction, prior work requires 2 transcriptions, focuses only on isolated
equations, has a limited test set, and provides neither training data nor
multilingual coverage. To address these issues, we present the first fully
open-source large-scale dataset, comprising over 66,000 human-annotated audio
samples of mathematical equations and sentences in both English and Russian,
drawn from diverse scientific domains. In addition to the ASR post-correction
models and few-shot prompting, we apply audio language models, demonstrating
comparable character error rate (CER) results on the MathSpeech benchmark (28%
vs. 30%) for the equations conversion. In contrast, on the proposed
S2L-equations benchmark, our models outperform the MathSpeech model by a
substantial margin of more than 40 percentage points, even after accounting for
LaTeX formatting artifacts (27% vs. 64%). We establish the first benchmark for
mathematical sentence recognition (S2L-sentences) and achieve an equation CER
of 40%. This work lays the groundwork for future advances in multimodal AI,
with a particular focus on mathematical content recognition.