ChatPaper.aiChatPaper

BOOM: Beyond Only One Modality – KITs multimodaler multilingualer Vorlesungsbegleiter

BOOM: Beyond Only One Modality KIT's Multimodal Multilingual Lecture Companion

December 2, 2025
papers.authors: Sai Koneru, Fabian Retkowski, Christian Huber, Lukas Hilgert, Seymanur Akti, Enes Yavuz Ugan, Alexander Waibel, Jan Niehues
cs.AI

papers.abstract

Die Globalisierung der Bildung und das rasche Wachstum des Online-Lernens haben die Lokalisierung von Bildungsinhalten zu einer zentralen Herausforderung gemacht. Vortragsmaterialien sind von Natur aus multimodal, da sie gesprochene Audioinhalte mit visuellen Folien kombinieren, was Systeme erfordert, die mehrere Eingabemodalitäten verarbeiten können. Um eine zugängliche und vollständige Lernerfahrung zu bieten, müssen Übersetzungen alle Modalitäten erhalten: Text zum Lesen, Folien zum visuellen Verständnis und Sprache für das auditive Lernen. Wir stellen BOOM vor, einen multimodalen, mehrsprachigen Vorlesungsbegleiter, der Vorlesungsaudio und -folien gemeinsam übersetzt, um synchronisierte Ausgaben in drei Modalitäten zu erzeugen: übersetzter Text, lokalisierte Folien mit erhaltenen visuellen Elementen und synthetisierte Sprache. Dieser End-to-End-Ansatz ermöglicht es Studierenden, auf Vorlesungen in ihrer Muttersprache zuzugreifen, und strebt dabei an, den ursprünglichen Inhalt vollständig zu bewahren. Unsere Experimente zeigen, dass folienbewusste Transkripte auch kaskadierende Vorteile für nachgelagerte Aufgaben wie Zusammenfassung und Fragebeantwortung bringen. Wir veröffentlichen unseren Slide-Translation-Code unter https://github.com/saikoneru/image-translator und integrieren ihn in Lecture Translator unter https://gitlab.kit.edu/kit/isl-ai4lt/lt-middleware/ltpipeline}\footnote{Alle veröffentlichten Codes und Modelle sind unter der MIT-Lizenz lizenziert.}
English
The globalization of education and rapid growth of online learning have made localizing educational content a critical challenge. Lecture materials are inherently multimodal, combining spoken audio with visual slides, which requires systems capable of processing multiple input modalities. To provide an accessible and complete learning experience, translations must preserve all modalities: text for reading, slides for visual understanding, and speech for auditory learning. We present BOOM, a multimodal multilingual lecture companion that jointly translates lecture audio and slides to produce synchronized outputs across three modalities: translated text, localized slides with preserved visual elements, and synthesized speech. This end-to-end approach enables students to access lectures in their native language while aiming to preserve the original content in its entirety. Our experiments demonstrate that slide-aware transcripts also yield cascading benefits for downstream tasks such as summarization and question answering. We release our Slide Translation code at https://github.com/saikoneru/image-translator and integrate it in Lecture Translator at https://gitlab.kit.edu/kit/isl-ai4lt/lt-middleware/ltpipeline}\footnote{All released code and models are licensed under the MIT License.
PDF01December 4, 2025