Spraak-naar-LaTeX: Nieuwe Modellen en Datasets voor het Omzetten van Gesproken Vergelijkingen en Zinnen
Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences
August 5, 2025
Auteurs: Dmitrii Korzh, Dmitrii Tarasov, Artyom Iudin, Elvir Karimov, Matvey Skripkin, Nikita Kuzmin, Andrey Kuznetsov, Oleg Y. Rogov, Ivan Oseledets
cs.AI
Samenvatting
Het omzetten van gesproken wiskundige uitdrukkingen is een uitdagende taak die het transcriberen van spraak naar een strikt gestructureerde symbolische representatie omvat, terwijl de ambiguïteit die inherent is aan de uitspraak van vergelijkingen wordt aangepakt. Hoewel aanzienlijke vooruitgang is geboekt in automatische spraakherkenning (ASR) en taalmodelmodellen (LM), blijft het probleem van het omzetten van gesproken wiskunde naar LaTeX onderbelicht. Deze taak is direct toepasbaar in educatieve en onderzoeksdomeinen, zoals het transcriberen van colleges of het maken van notities. Op basis van ASR-postcorrectie vereist eerder werk 2 transcripties, richt het zich alleen op geïsoleerde vergelijkingen, heeft het een beperkte testset en biedt het noch trainingsdata noch meertalige dekking. Om deze problemen aan te pakken, presenteren we de eerste volledig open-source grootschalige dataset, bestaande uit meer dan 66.000 door mensen geannoteerde audiofragmenten van wiskundige vergelijkingen en zinnen in zowel het Engels als het Russisch, afkomstig uit diverse wetenschappelijke domeinen. Naast de ASR-postcorrectiemodellen en few-shot prompting passen we audiotaalmodellen toe, die vergelijkbare resultaten voor de karakterfoutratio (CER) laten zien op de MathSpeech-benchmark (28% vs. 30%) voor het omzetten van vergelijkingen. Daarentegen presteren onze modellen op de voorgestelde S2L-vergelijkingen-benchmark aanzienlijk beter dan het MathSpeech-model met een marge van meer dan 40 procentpunten, zelfs na correctie voor LaTeX-opmaakartefacten (27% vs. 64%). We stellen de eerste benchmark in voor het herkennen van wiskundige zinnen (S2L-zinnen) en behalen een CER van 40% voor vergelijkingen. Dit werk legt de basis voor toekomstige vooruitgang in multimodale AI, met een specifieke focus op het herkennen van wiskundige inhoud.
English
Conversion of spoken mathematical expressions is a challenging task that
involves transcribing speech into a strictly structured symbolic representation
while addressing the ambiguity inherent in the pronunciation of equations.
Although significant progress has been achieved in automatic speech recognition
(ASR) and language models (LM), the problem of converting spoken mathematics
into LaTeX remains underexplored. This task directly applies to educational and
research domains, such as lecture transcription or note creation. Based on ASR
post-correction, prior work requires 2 transcriptions, focuses only on isolated
equations, has a limited test set, and provides neither training data nor
multilingual coverage. To address these issues, we present the first fully
open-source large-scale dataset, comprising over 66,000 human-annotated audio
samples of mathematical equations and sentences in both English and Russian,
drawn from diverse scientific domains. In addition to the ASR post-correction
models and few-shot prompting, we apply audio language models, demonstrating
comparable character error rate (CER) results on the MathSpeech benchmark (28%
vs. 30%) for the equations conversion. In contrast, on the proposed
S2L-equations benchmark, our models outperform the MathSpeech model by a
substantial margin of more than 40 percentage points, even after accounting for
LaTeX formatting artifacts (27% vs. 64%). We establish the first benchmark for
mathematical sentence recognition (S2L-sentences) and achieve an equation CER
of 40%. This work lays the groundwork for future advances in multimodal AI,
with a particular focus on mathematical content recognition.