Speech-to-LaTeX: Neue Modelle und Datensätze zur Umwandlung gesprochener Gleichungen und Sätze
Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences
August 5, 2025
papers.authors: Dmitrii Korzh, Dmitrii Tarasov, Artyom Iudin, Elvir Karimov, Matvey Skripkin, Nikita Kuzmin, Andrey Kuznetsov, Oleg Y. Rogov, Ivan Oseledets
cs.AI
papers.abstract
Die Umwandlung gesprochener mathematischer Ausdrücke ist eine anspruchsvolle Aufgabe, bei der Sprache in eine streng strukturierte symbolische Darstellung transkribiert wird, während die inhärente Mehrdeutigkeit bei der Aussprache von Gleichungen berücksichtigt wird. Obwohl bedeutende Fortschritte in der automatischen Spracherkennung (ASR) und bei Sprachmodellen (LM) erzielt wurden, bleibt die Umwandlung gesprochener Mathematik in LaTeX ein wenig erforschtes Problem. Diese Aufgabe ist direkt auf Bildungs- und Forschungsbereiche anwendbar, wie beispielsweise die Transkription von Vorlesungen oder die Erstellung von Notizen. Basierend auf der ASR-Nachkorrektur erfordert frühere Arbeit zwei Transkriptionen, konzentriert sich nur auf isolierte Gleichungen, verfügt über einen begrenzten Testdatensatz und bietet weder Trainingsdaten noch mehrsprachige Abdeckung. Um diese Probleme zu adressieren, präsentieren wir den ersten vollständig quelloffenen, groß angelegten Datensatz, der über 66.000 von Menschen annotierte Audioaufnahmen mathematischer Gleichungen und Sätze in Englisch und Russisch umfasst, die aus verschiedenen wissenschaftlichen Domänen stammen. Neben den ASR-Nachkorrekturmodellen und Few-Shot-Prompting wenden wir Audio-Sprachmodelle an und zeigen vergleichbare Ergebnisse bei der Zeichenfehlerrate (CER) auf dem MathSpeech-Benchmark (28 % vs. 30 %) für die Gleichungsumwandlung. Im Gegensatz dazu übertreffen unsere Modelle auf dem vorgeschlagenen S2L-Gleichungen-Benchmark das MathSpeech-Modell mit einem erheblichen Vorsprung von mehr als 40 Prozentpunkten, selbst nach Berücksichtigung von LaTeX-Formatierungsartefakten (27 % vs. 64 %). Wir etablieren den ersten Benchmark für die Erkennung mathematischer Sätze (S2L-Sätze) und erreichen eine Gleichungs-CER von 40 %. Diese Arbeit legt den Grundstein für zukünftige Fortschritte in der multimodalen KI, mit einem besonderen Fokus auf der Erkennung mathematischer Inhalte.
English
Conversion of spoken mathematical expressions is a challenging task that
involves transcribing speech into a strictly structured symbolic representation
while addressing the ambiguity inherent in the pronunciation of equations.
Although significant progress has been achieved in automatic speech recognition
(ASR) and language models (LM), the problem of converting spoken mathematics
into LaTeX remains underexplored. This task directly applies to educational and
research domains, such as lecture transcription or note creation. Based on ASR
post-correction, prior work requires 2 transcriptions, focuses only on isolated
equations, has a limited test set, and provides neither training data nor
multilingual coverage. To address these issues, we present the first fully
open-source large-scale dataset, comprising over 66,000 human-annotated audio
samples of mathematical equations and sentences in both English and Russian,
drawn from diverse scientific domains. In addition to the ASR post-correction
models and few-shot prompting, we apply audio language models, demonstrating
comparable character error rate (CER) results on the MathSpeech benchmark (28%
vs. 30%) for the equations conversion. In contrast, on the proposed
S2L-equations benchmark, our models outperform the MathSpeech model by a
substantial margin of more than 40 percentage points, even after accounting for
LaTeX formatting artifacts (27% vs. 64%). We establish the first benchmark for
mathematical sentence recognition (S2L-sentences) and achieve an equation CER
of 40%. This work lays the groundwork for future advances in multimodal AI,
with a particular focus on mathematical content recognition.