Speech-to-LaTeX : Nouveaux modèles et jeux de données pour la conversion d'équations et de phrases parlées
Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences
August 5, 2025
papers.authors: Dmitrii Korzh, Dmitrii Tarasov, Artyom Iudin, Elvir Karimov, Matvey Skripkin, Nikita Kuzmin, Andrey Kuznetsov, Oleg Y. Rogov, Ivan Oseledets
cs.AI
papers.abstract
La conversion d'expressions mathématiques parlées est une tâche complexe qui consiste à transcrire la parole en une représentation symbolique strictement structurée tout en traitant l'ambiguïté inhérente à la prononciation des équations. Bien que des progrès significatifs aient été réalisés en reconnaissance automatique de la parole (ASR) et en modèles de langage (LM), le problème de la conversion des mathématiques parlées en LaTeX reste peu exploré. Cette tâche s'applique directement aux domaines éducatifs et de recherche, tels que la transcription de cours ou la création de notes. Basé sur la post-correction ASR, les travaux antérieurs nécessitent 2 transcriptions, se concentrent uniquement sur des équations isolées, disposent d'un ensemble de tests limité et ne fournissent ni données d'entraînement ni couverture multilingue. Pour résoudre ces problèmes, nous présentons le premier ensemble de données entièrement open-source à grande échelle, comprenant plus de 66 000 échantillons audio annotés manuellement d'équations mathématiques et de phrases en anglais et en russe, issus de divers domaines scientifiques. En plus des modèles de post-correction ASR et de l'incitation en peu de coups, nous appliquons des modèles de langage audio, démontrant des résultats comparables en taux d'erreur de caractère (CER) sur le benchmark MathSpeech (28 % contre 30 %) pour la conversion des équations. En revanche, sur le benchmark S2L-equations proposé, nos modèles surpassent le modèle MathSpeech par une marge substantielle de plus de 40 points de pourcentage, même après prise en compte des artefacts de formatage LaTeX (27 % contre 64 %). Nous établissons le premier benchmark pour la reconnaissance de phrases mathématiques (S2L-sentences) et atteignons un CER d'équation de 40 %. Ce travail pose les bases pour les avancées futures en IA multimodale, avec un accent particulier sur la reconnaissance de contenu mathématique.
English
Conversion of spoken mathematical expressions is a challenging task that
involves transcribing speech into a strictly structured symbolic representation
while addressing the ambiguity inherent in the pronunciation of equations.
Although significant progress has been achieved in automatic speech recognition
(ASR) and language models (LM), the problem of converting spoken mathematics
into LaTeX remains underexplored. This task directly applies to educational and
research domains, such as lecture transcription or note creation. Based on ASR
post-correction, prior work requires 2 transcriptions, focuses only on isolated
equations, has a limited test set, and provides neither training data nor
multilingual coverage. To address these issues, we present the first fully
open-source large-scale dataset, comprising over 66,000 human-annotated audio
samples of mathematical equations and sentences in both English and Russian,
drawn from diverse scientific domains. In addition to the ASR post-correction
models and few-shot prompting, we apply audio language models, demonstrating
comparable character error rate (CER) results on the MathSpeech benchmark (28%
vs. 30%) for the equations conversion. In contrast, on the proposed
S2L-equations benchmark, our models outperform the MathSpeech model by a
substantial margin of more than 40 percentage points, even after accounting for
LaTeX formatting artifacts (27% vs. 64%). We establish the first benchmark for
mathematical sentence recognition (S2L-sentences) and achieve an equation CER
of 40%. This work lays the groundwork for future advances in multimodal AI,
with a particular focus on mathematical content recognition.