Speech-to-LaTeX: Новые модели и наборы данных для преобразования произносимых уравнений и предложений
Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences
August 5, 2025
Авторы: Dmitrii Korzh, Dmitrii Tarasov, Artyom Iudin, Elvir Karimov, Matvey Skripkin, Nikita Kuzmin, Andrey Kuznetsov, Oleg Y. Rogov, Ivan Oseledets
cs.AI
Аннотация
Преобразование устных математических выражений является сложной задачей, которая включает транскрибирование речи в строго структурированное символическое представление с учетом неоднозначности, присущей произношению уравнений. Несмотря на значительный прогресс в области автоматического распознавания речи (ASR) и языковых моделей (LM), проблема преобразования устной математики в LaTeX остается недостаточно изученной. Эта задача напрямую применима в образовательных и исследовательских областях, таких как транскрибирование лекций или создание заметок. Предыдущие работы, основанные на посткоррекции ASR, требуют двух транскрипций, сосредоточены только на изолированных уравнениях, имеют ограниченный тестовый набор и не предоставляют ни обучающих данных, ни поддержки нескольких языков. Для решения этих проблем мы представляем первый полностью открытый крупномасштабный набор данных, включающий более 66 000 аудиозаписей математических уравнений и предложений на английском и русском языках, аннотированных вручную и охватывающих различные научные области. В дополнение к моделям посткоррекции ASR и методам few-shot prompting мы применяем аудио-языковые модели, демонстрируя сопоставимые результаты по уровню ошибок на символ (CER) на бенчмарке MathSpeech (28% против 30%) для преобразования уравнений. В то же время на предложенном бенчмарке S2L-equations наши модели превосходят модель MathSpeech с существенным отрывом более чем на 40 процентных пунктов, даже с учетом артефактов форматирования LaTeX (27% против 64%). Мы устанавливаем первый бенчмарк для распознавания математических предложений (S2L-sentences) и достигаем CER для уравнений на уровне 40%. Эта работа закладывает основу для будущих достижений в области мультимодального ИИ с особым акцентом на распознавание математического контента.
English
Conversion of spoken mathematical expressions is a challenging task that
involves transcribing speech into a strictly structured symbolic representation
while addressing the ambiguity inherent in the pronunciation of equations.
Although significant progress has been achieved in automatic speech recognition
(ASR) and language models (LM), the problem of converting spoken mathematics
into LaTeX remains underexplored. This task directly applies to educational and
research domains, such as lecture transcription or note creation. Based on ASR
post-correction, prior work requires 2 transcriptions, focuses only on isolated
equations, has a limited test set, and provides neither training data nor
multilingual coverage. To address these issues, we present the first fully
open-source large-scale dataset, comprising over 66,000 human-annotated audio
samples of mathematical equations and sentences in both English and Russian,
drawn from diverse scientific domains. In addition to the ASR post-correction
models and few-shot prompting, we apply audio language models, demonstrating
comparable character error rate (CER) results on the MathSpeech benchmark (28%
vs. 30%) for the equations conversion. In contrast, on the proposed
S2L-equations benchmark, our models outperform the MathSpeech model by a
substantial margin of more than 40 percentage points, even after accounting for
LaTeX formatting artifacts (27% vs. 64%). We establish the first benchmark for
mathematical sentence recognition (S2L-sentences) and achieve an equation CER
of 40%. This work lays the groundwork for future advances in multimodal AI,
with a particular focus on mathematical content recognition.