Speech-to-LaTeX: Nuovi Modelli e Dataset per la Conversione di Equazioni e Frasi Parlate
Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences
August 5, 2025
Autori: Dmitrii Korzh, Dmitrii Tarasov, Artyom Iudin, Elvir Karimov, Matvey Skripkin, Nikita Kuzmin, Andrey Kuznetsov, Oleg Y. Rogov, Ivan Oseledets
cs.AI
Abstract
La conversione di espressioni matematiche pronunciate è un compito complesso che implica la trascrizione del parlato in una rappresentazione simbolica rigorosamente strutturata, affrontando al contempo l'ambiguità intrinseca nella pronuncia delle equazioni. Nonostante i significativi progressi ottenuti nel riconoscimento automatico del parlato (ASR) e nei modelli linguistici (LM), il problema della conversione di matematica parlata in LaTeX rimane poco esplorato. Questo compito si applica direttamente a domini educativi e di ricerca, come la trascrizione di lezioni o la creazione di appunti. Basandosi sulla post-correzione ASR, i lavori precedenti richiedono 2 trascrizioni, si concentrano solo su equazioni isolate, hanno un set di test limitato e non forniscono né dati di addestramento né copertura multilingue. Per affrontare queste problematiche, presentiamo il primo dataset su larga scala completamente open-source, comprendente oltre 66.000 campioni audio annotati manualmente di equazioni matematiche e frasi in inglese e russo, tratti da diversi ambiti scientifici. Oltre ai modelli di post-correzione ASR e al prompting few-shot, applichiamo modelli linguistici audio, dimostrando risultati comparabili in termini di tasso di errore sui caratteri (CER) sul benchmark MathSpeech (28% vs. 30%) per la conversione delle equazioni. Al contrario, sul benchmark S2L-equations proposto, i nostri modelli superano il modello MathSpeech con un margine sostanziale di oltre 40 punti percentuali, anche dopo aver considerato gli artefatti di formattazione LaTeX (27% vs. 64%). Istituiamo il primo benchmark per il riconoscimento di frasi matematiche (S2L-sentences) e raggiungiamo un CER sulle equazioni del 40%. Questo lavoro getta le basi per futuri progressi nell'IA multimodale, con un particolare focus sul riconoscimento di contenuti matematici.
English
Conversion of spoken mathematical expressions is a challenging task that
involves transcribing speech into a strictly structured symbolic representation
while addressing the ambiguity inherent in the pronunciation of equations.
Although significant progress has been achieved in automatic speech recognition
(ASR) and language models (LM), the problem of converting spoken mathematics
into LaTeX remains underexplored. This task directly applies to educational and
research domains, such as lecture transcription or note creation. Based on ASR
post-correction, prior work requires 2 transcriptions, focuses only on isolated
equations, has a limited test set, and provides neither training data nor
multilingual coverage. To address these issues, we present the first fully
open-source large-scale dataset, comprising over 66,000 human-annotated audio
samples of mathematical equations and sentences in both English and Russian,
drawn from diverse scientific domains. In addition to the ASR post-correction
models and few-shot prompting, we apply audio language models, demonstrating
comparable character error rate (CER) results on the MathSpeech benchmark (28%
vs. 30%) for the equations conversion. In contrast, on the proposed
S2L-equations benchmark, our models outperform the MathSpeech model by a
substantial margin of more than 40 percentage points, even after accounting for
LaTeX formatting artifacts (27% vs. 64%). We establish the first benchmark for
mathematical sentence recognition (S2L-sentences) and achieve an equation CER
of 40%. This work lays the groundwork for future advances in multimodal AI,
with a particular focus on mathematical content recognition.