BOOM : Beyond Only One Modality - Le Compagnon de Cours Multimodal et Multilingue du KIT
BOOM: Beyond Only One Modality KIT's Multimodal Multilingual Lecture Companion
December 2, 2025
papers.authors: Sai Koneru, Fabian Retkowski, Christian Huber, Lukas Hilgert, Seymanur Akti, Enes Yavuz Ugan, Alexander Waibel, Jan Niehues
cs.AI
papers.abstract
La mondialisation de l'éducation et la croissance rapide de l'apprentissage en ligne ont fait de la localisation des contenus pédagogiques un défi majeur. Les supports de cours sont intrinsèquement multimodaux, combinant l'audio parlé avec des diapositives visuelles, ce qui nécessite des systèmes capables de traiter de multiples modalités d'entrée. Pour offrir une expérience d'apprentissage accessible et complète, les traductions doivent préserver toutes les modalités : le texte pour la lecture, les diapositives pour la compréhension visuelle et la parole pour l'apprentissage auditif. Nous présentons BOOM, un assistant de cours multilingue et multimodal qui traduit conjointement l'audio des cours et les diapositives pour produire des sorties synchronisées sur trois modalités : texte traduit, diapositives localisées avec préservation des éléments visuels, et parole synthétisée. Cette approche de bout en bout permet aux étudiants d'accéder aux cours dans leur langue maternelle tout en visant à préserver l'intégralité du contenu original. Nos expériences démontrent que les transcriptions intégrant les diapositives produisent également des bénéfices en cascade pour les tâches en aval telles que la synthèse et la réponse aux questions. Nous publions notre code de traduction de diapositives à l'adresse https://github.com/saikoneru/image-translator et l'intégrons dans Lecture Translator à l'adresse https://gitlab.kit.edu/kit/isl-ai4lt/lt-middleware/ltpipeline}\footnote{Tous les codes et modèles publiés sont sous licence MIT.}
English
The globalization of education and rapid growth of online learning have made localizing educational content a critical challenge. Lecture materials are inherently multimodal, combining spoken audio with visual slides, which requires systems capable of processing multiple input modalities. To provide an accessible and complete learning experience, translations must preserve all modalities: text for reading, slides for visual understanding, and speech for auditory learning. We present BOOM, a multimodal multilingual lecture companion that jointly translates lecture audio and slides to produce synchronized outputs across three modalities: translated text, localized slides with preserved visual elements, and synthesized speech. This end-to-end approach enables students to access lectures in their native language while aiming to preserve the original content in its entirety. Our experiments demonstrate that slide-aware transcripts also yield cascading benefits for downstream tasks such as summarization and question answering. We release our Slide Translation code at https://github.com/saikoneru/image-translator and integrate it in Lecture Translator at https://gitlab.kit.edu/kit/isl-ai4lt/lt-middleware/ltpipeline}\footnote{All released code and models are licensed under the MIT License.