ChatPaper.aiChatPaper

Speech-to-LaTeX: Nuevos Modelos y Conjuntos de Datos para la Conversión de Ecuaciones y Frases Habladas

Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences

August 5, 2025
Autores: Dmitrii Korzh, Dmitrii Tarasov, Artyom Iudin, Elvir Karimov, Matvey Skripkin, Nikita Kuzmin, Andrey Kuznetsov, Oleg Y. Rogov, Ivan Oseledets
cs.AI

Resumen

La conversión de expresiones matemáticas habladas es una tarea desafiante que implica transcribir el habla en una representación simbólica estrictamente estructurada, abordando al mismo tiempo la ambigüedad inherente en la pronunciación de ecuaciones. Aunque se han logrado avances significativos en el reconocimiento automático del habla (ASR, por sus siglas en inglés) y en los modelos de lenguaje (LM), el problema de convertir matemáticas habladas a LaTeX sigue estando poco explorado. Esta tarea tiene aplicaciones directas en dominios educativos y de investigación, como la transcripción de conferencias o la creación de notas. Basándose en la corrección posterior de ASR, trabajos previos requieren 2 transcripciones, se centran únicamente en ecuaciones aisladas, tienen un conjunto de pruebas limitado y no proporcionan datos de entrenamiento ni cobertura multilingüe. Para abordar estos problemas, presentamos el primer conjunto de datos a gran escala completamente de código abierto, que comprende más de 66,000 muestras de audio anotadas manualmente de ecuaciones matemáticas y oraciones en inglés y ruso, extraídas de diversos dominios científicos. Además de los modelos de corrección posterior de ASR y el enfoque de pocos ejemplos, aplicamos modelos de lenguaje de audio, demostrando resultados comparables en la tasa de error de caracteres (CER) en el benchmark MathSpeech (28% frente a 30%) para la conversión de ecuaciones. En contraste, en el benchmark propuesto S2L-ecuaciones, nuestros modelos superan al modelo MathSpeech por un margen sustancial de más de 40 puntos porcentuales, incluso después de tener en cuenta los artefactos de formato LaTeX (27% frente a 64%). Establecemos el primer benchmark para el reconocimiento de oraciones matemáticas (S2L-oraciones) y logramos un CER de ecuaciones del 40%. Este trabajo sienta las bases para futuros avances en la inteligencia artificial multimodal, con un enfoque particular en el reconocimiento de contenido matemático.
English
Conversion of spoken mathematical expressions is a challenging task that involves transcribing speech into a strictly structured symbolic representation while addressing the ambiguity inherent in the pronunciation of equations. Although significant progress has been achieved in automatic speech recognition (ASR) and language models (LM), the problem of converting spoken mathematics into LaTeX remains underexplored. This task directly applies to educational and research domains, such as lecture transcription or note creation. Based on ASR post-correction, prior work requires 2 transcriptions, focuses only on isolated equations, has a limited test set, and provides neither training data nor multilingual coverage. To address these issues, we present the first fully open-source large-scale dataset, comprising over 66,000 human-annotated audio samples of mathematical equations and sentences in both English and Russian, drawn from diverse scientific domains. In addition to the ASR post-correction models and few-shot prompting, we apply audio language models, demonstrating comparable character error rate (CER) results on the MathSpeech benchmark (28% vs. 30%) for the equations conversion. In contrast, on the proposed S2L-equations benchmark, our models outperform the MathSpeech model by a substantial margin of more than 40 percentage points, even after accounting for LaTeX formatting artifacts (27% vs. 64%). We establish the first benchmark for mathematical sentence recognition (S2L-sentences) and achieve an equation CER of 40%. This work lays the groundwork for future advances in multimodal AI, with a particular focus on mathematical content recognition.
PDF42August 12, 2025