BOOM: Beyond Only One Modality - KIT's Multimodal Meertalige Lezingenassistent
BOOM: Beyond Only One Modality KIT's Multimodal Multilingual Lecture Companion
December 2, 2025
Auteurs: Sai Koneru, Fabian Retkowski, Christian Huber, Lukas Hilgert, Seymanur Akti, Enes Yavuz Ugan, Alexander Waibel, Jan Niehues
cs.AI
Samenvatting
De globalisering van het onderwijs en de snelle groei van online leren hebben het lokaliseren van educatieve content tot een cruciale uitdaging gemaakt. Lesmateriaal is van nature multimodaal: het combineert gesproken audio met visuele dia's, wat systemen vereist die meerdere invoermodaliteiten kunnen verwerken. Om een toegankelijke en complete leerervaring te bieden, moeten vertalingen alle modaliteiten behouden: tekst om te lezen, dia's voor visueel begrip en spraak voor auditief leren. Wij presenteren BOOM, een multimodale, meertalige lecture companion die lesaudio en -dia's gezamenlijk vertaalt om gesynchroniseerde uitvoer te produceren over drie modaliteiten: vertaalde tekst, gelokaliseerde dia's met behouden visuele elementen en gesynthetiseerde spraak. Deze end-to-end aanpak stelt studenten in staat om colleges in hun moedertaal te volgen, met als doel de originele content in zijn geheel te behouden. Onze experimenten tonen aan dat dia-bewuste transcripties ook cascaderende voordelen opleveren voor downstreamtaken zoals samenvatting en vraagbeantwoording. Wij geven onze Slide Translation-code vrij op https://github.com/saikoneru/image-translator en integreren deze in Lecture Translator op https://gitlab.kit.edu/kit/isl-ai4lt/lt-middleware/ltpipeline}\footnote{Alle vrijgegeven code en modellen zijn gelicentieerd onder de MIT-licentie.}
English
The globalization of education and rapid growth of online learning have made localizing educational content a critical challenge. Lecture materials are inherently multimodal, combining spoken audio with visual slides, which requires systems capable of processing multiple input modalities. To provide an accessible and complete learning experience, translations must preserve all modalities: text for reading, slides for visual understanding, and speech for auditory learning. We present BOOM, a multimodal multilingual lecture companion that jointly translates lecture audio and slides to produce synchronized outputs across three modalities: translated text, localized slides with preserved visual elements, and synthesized speech. This end-to-end approach enables students to access lectures in their native language while aiming to preserve the original content in its entirety. Our experiments demonstrate that slide-aware transcripts also yield cascading benefits for downstream tasks such as summarization and question answering. We release our Slide Translation code at https://github.com/saikoneru/image-translator and integrate it in Lecture Translator at https://gitlab.kit.edu/kit/isl-ai4lt/lt-middleware/ltpipeline}\footnote{All released code and models are licensed under the MIT License.