ChatPaper.aiChatPaper

Speech-to-LaTeX: Neue Modelle und Datensätze zur Umwandlung gesprochener Gleichungen und Sätze

Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences

August 5, 2025
papers.authors: Dmitrii Korzh, Dmitrii Tarasov, Artyom Iudin, Elvir Karimov, Matvey Skripkin, Nikita Kuzmin, Andrey Kuznetsov, Oleg Y. Rogov, Ivan Oseledets
cs.AI

papers.abstract

Die Umwandlung gesprochener mathematischer Ausdrücke ist eine anspruchsvolle Aufgabe, bei der Sprache in eine streng strukturierte symbolische Darstellung transkribiert wird, während die inhärente Mehrdeutigkeit bei der Aussprache von Gleichungen berücksichtigt wird. Obwohl bedeutende Fortschritte in der automatischen Spracherkennung (ASR) und bei Sprachmodellen (LM) erzielt wurden, bleibt die Umwandlung gesprochener Mathematik in LaTeX ein wenig erforschtes Problem. Diese Aufgabe ist direkt auf Bildungs- und Forschungsbereiche anwendbar, wie beispielsweise die Transkription von Vorlesungen oder die Erstellung von Notizen. Basierend auf der ASR-Nachkorrektur erfordert frühere Arbeit zwei Transkriptionen, konzentriert sich nur auf isolierte Gleichungen, verfügt über einen begrenzten Testdatensatz und bietet weder Trainingsdaten noch mehrsprachige Abdeckung. Um diese Probleme zu adressieren, präsentieren wir den ersten vollständig quelloffenen, groß angelegten Datensatz, der über 66.000 von Menschen annotierte Audioaufnahmen mathematischer Gleichungen und Sätze in Englisch und Russisch umfasst, die aus verschiedenen wissenschaftlichen Domänen stammen. Neben den ASR-Nachkorrekturmodellen und Few-Shot-Prompting wenden wir Audio-Sprachmodelle an und zeigen vergleichbare Ergebnisse bei der Zeichenfehlerrate (CER) auf dem MathSpeech-Benchmark (28 % vs. 30 %) für die Gleichungsumwandlung. Im Gegensatz dazu übertreffen unsere Modelle auf dem vorgeschlagenen S2L-Gleichungen-Benchmark das MathSpeech-Modell mit einem erheblichen Vorsprung von mehr als 40 Prozentpunkten, selbst nach Berücksichtigung von LaTeX-Formatierungsartefakten (27 % vs. 64 %). Wir etablieren den ersten Benchmark für die Erkennung mathematischer Sätze (S2L-Sätze) und erreichen eine Gleichungs-CER von 40 %. Diese Arbeit legt den Grundstein für zukünftige Fortschritte in der multimodalen KI, mit einem besonderen Fokus auf der Erkennung mathematischer Inhalte.
English
Conversion of spoken mathematical expressions is a challenging task that involves transcribing speech into a strictly structured symbolic representation while addressing the ambiguity inherent in the pronunciation of equations. Although significant progress has been achieved in automatic speech recognition (ASR) and language models (LM), the problem of converting spoken mathematics into LaTeX remains underexplored. This task directly applies to educational and research domains, such as lecture transcription or note creation. Based on ASR post-correction, prior work requires 2 transcriptions, focuses only on isolated equations, has a limited test set, and provides neither training data nor multilingual coverage. To address these issues, we present the first fully open-source large-scale dataset, comprising over 66,000 human-annotated audio samples of mathematical equations and sentences in both English and Russian, drawn from diverse scientific domains. In addition to the ASR post-correction models and few-shot prompting, we apply audio language models, demonstrating comparable character error rate (CER) results on the MathSpeech benchmark (28% vs. 30%) for the equations conversion. In contrast, on the proposed S2L-equations benchmark, our models outperform the MathSpeech model by a substantial margin of more than 40 percentage points, even after accounting for LaTeX formatting artifacts (27% vs. 64%). We establish the first benchmark for mathematical sentence recognition (S2L-sentences) and achieve an equation CER of 40%. This work lays the groundwork for future advances in multimodal AI, with a particular focus on mathematical content recognition.
PDF42August 12, 2025