Speech-to-LaTeX: Nuovi Modelli e Dataset per la Conversione di Equazioni e Frasi Parlate

Abstract

La conversione di espressioni matematiche pronunciate è un compito complesso che implica la trascrizione del parlato in una rappresentazione simbolica rigorosamente strutturata, affrontando al contempo l'ambiguità intrinseca nella pronuncia delle equazioni. Nonostante i significativi progressi ottenuti nel riconoscimento automatico del parlato (ASR) e nei modelli linguistici (LM), il problema della conversione di matematica parlata in LaTeX rimane poco esplorato. Questo compito si applica direttamente a domini educativi e di ricerca, come la trascrizione di lezioni o la creazione di appunti. Basandosi sulla post-correzione ASR, i lavori precedenti richiedono 2 trascrizioni, si concentrano solo su equazioni isolate, hanno un set di test limitato e non forniscono né dati di addestramento né copertura multilingue. Per affrontare queste problematiche, presentiamo il primo dataset su larga scala completamente open-source, comprendente oltre 66.000 campioni audio annotati manualmente di equazioni matematiche e frasi in inglese e russo, tratti da diversi ambiti scientifici. Oltre ai modelli di post-correzione ASR e al prompting few-shot, applichiamo modelli linguistici audio, dimostrando risultati comparabili in termini di tasso di errore sui caratteri (CER) sul benchmark MathSpeech (28% vs. 30%) per la conversione delle equazioni. Al contrario, sul benchmark S2L-equations proposto, i nostri modelli superano il modello MathSpeech con un margine sostanziale di oltre 40 punti percentuali, anche dopo aver considerato gli artefatti di formattazione LaTeX (27% vs. 64%). Istituiamo il primo benchmark per il riconoscimento di frasi matematiche (S2L-sentences) e raggiungiamo un CER sulle equazioni del 40%. Questo lavoro getta le basi per futuri progressi nell'IA multimodale, con un particolare focus sul riconoscimento di contenuti matematici.

English

Conversion of spoken mathematical expressions is a challenging task that involves transcribing speech into a strictly structured symbolic representation while addressing the ambiguity inherent in the pronunciation of equations. Although significant progress has been achieved in automatic speech recognition (ASR) and language models (LM), the problem of converting spoken mathematics into LaTeX remains underexplored. This task directly applies to educational and research domains, such as lecture transcription or note creation. Based on ASR post-correction, prior work requires 2 transcriptions, focuses only on isolated equations, has a limited test set, and provides neither training data nor multilingual coverage. To address these issues, we present the first fully open-source large-scale dataset, comprising over 66,000 human-annotated audio samples of mathematical equations and sentences in both English and Russian, drawn from diverse scientific domains. In addition to the ASR post-correction models and few-shot prompting, we apply audio language models, demonstrating comparable character error rate (CER) results on the MathSpeech benchmark (28% vs. 30%) for the equations conversion. In contrast, on the proposed S2L-equations benchmark, our models outperform the MathSpeech model by a substantial margin of more than 40 percentage points, even after accounting for LaTeX formatting artifacts (27% vs. 64%). We establish the first benchmark for mathematical sentence recognition (S2L-sentences) and achieve an equation CER of 40%. This work lays the groundwork for future advances in multimodal AI, with a particular focus on mathematical content recognition.

Speech-to-LaTeX: Nuovi Modelli e Dataset per la Conversione di Equazioni e Frasi Parlate

Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences

Abstract

Support