BOOM: Oltre la Singola Modalità - Il Compagno Multimodale e Multilingue per le Lezioni del KIT
BOOM: Beyond Only One Modality KIT's Multimodal Multilingual Lecture Companion
December 2, 2025
Autori: Sai Koneru, Fabian Retkowski, Christian Huber, Lukas Hilgert, Seymanur Akti, Enes Yavuz Ugan, Alexander Waibel, Jan Niehues
cs.AI
Abstract
La globalizzazione dell'istruzione e la rapida crescita dell'apprendimento online hanno reso la localizzazione dei contenuti educativi una sfida cruciale. I materiali didattici sono intrinsecamente multimodali, combinando audio parlato con slide visive, il che richiede sistemi in grado di elaborare molteplici modalità di input. Per fornire un'esperienza di apprendimento accessibile e completa, le traduzioni devono preservare tutte le modalità: testo per la lettura, slide per la comprensione visiva e parlato per l'apprendimento uditivo. Presentiamo BOOM, un compagno didattico multilingue e multimodale che traduce congiuntamente l'audio delle lezioni e le slide per produrre output sincronizzati su tre modalità: testo tradotto, slide localizzate con elementi visivi preservati e sintesi vocale. Questo approccio end-to-end consente agli studenti di accedere alle lezioni nella loro lingua madre preservando integralmente il contenuto originale. I nostri esperimenti dimostrano che le trascrizioni consapevoli delle slide producono anche benefici a cascata per compiti downstream come la riassunzione e il question answering. Rilasciamo il nostro codice per la traduzione delle slide all'indirizzo https://github.com/saikoneru/image-translator e lo integriamo in Lecture Translator all'indirizzo https://gitlab.kit.edu/kit/isl-ai4lt/lt-middleware/ltpipeline}\footnote{Tutto il codice e i modelli rilasciati sono concessi in licenza MIT License.}
English
The globalization of education and rapid growth of online learning have made localizing educational content a critical challenge. Lecture materials are inherently multimodal, combining spoken audio with visual slides, which requires systems capable of processing multiple input modalities. To provide an accessible and complete learning experience, translations must preserve all modalities: text for reading, slides for visual understanding, and speech for auditory learning. We present BOOM, a multimodal multilingual lecture companion that jointly translates lecture audio and slides to produce synchronized outputs across three modalities: translated text, localized slides with preserved visual elements, and synthesized speech. This end-to-end approach enables students to access lectures in their native language while aiming to preserve the original content in its entirety. Our experiments demonstrate that slide-aware transcripts also yield cascading benefits for downstream tasks such as summarization and question answering. We release our Slide Translation code at https://github.com/saikoneru/image-translator and integrate it in Lecture Translator at https://gitlab.kit.edu/kit/isl-ai4lt/lt-middleware/ltpipeline}\footnote{All released code and models are licensed under the MIT License.