BOOM: Beyond Only One Modality — многомодальный многоязычный лекционный компаньон от KIT
BOOM: Beyond Only One Modality KIT's Multimodal Multilingual Lecture Companion
December 2, 2025
Авторы: Sai Koneru, Fabian Retkowski, Christian Huber, Lukas Hilgert, Seymanur Akti, Enes Yavuz Ugan, Alexander Waibel, Jan Niehues
cs.AI
Аннотация
Глобализация образования и быстрый рост онлайн-обучения сделали локализацию образовательного контента критически важной задачей. Учебные материалы по своей природе мультимодальны, сочетая звуковую речь с визуальными слайдами, что требует систем, способных обрабатывать несколько входных модальностей. Чтобы обеспечить доступный и полноценный учебный опыт, переводы должны сохранять все модальности: текст для чтения, слайды для визуального восприятия и речь для аудирования. Мы представляем BOOM, мультимодального многоязычного помощника для лекций, который совместно переводит аудио и слайды лекций для создания синхронизированных выходных данных в трёх модальностях: переведённый текст, локализованные слайды с сохранёнными визуальными элементами и синтезированная речь. Этот сквозной подход позволяет студентам получать доступ к лекциям на родном языке, стремясь при этом сохранить оригинальный контент в полном объёме. Наши эксперименты демонстрируют, что транскрипты с учётом слайдов также приносят каскадные преимущества для последующих задач, таких как суммаризация и ответы на вопросы. Мы публикуем наш код для перевода слайдов по адресу https://github.com/saikoneru/image-translator и интегрируем его в Lecture Translator по адресу https://gitlab.kit.edu/kit/isl-ai4lt/lt-middleware/ltpipeline}\footnote{Весь опубликованный код и модели лицензированы по лицензии MIT.}
English
The globalization of education and rapid growth of online learning have made localizing educational content a critical challenge. Lecture materials are inherently multimodal, combining spoken audio with visual slides, which requires systems capable of processing multiple input modalities. To provide an accessible and complete learning experience, translations must preserve all modalities: text for reading, slides for visual understanding, and speech for auditory learning. We present BOOM, a multimodal multilingual lecture companion that jointly translates lecture audio and slides to produce synchronized outputs across three modalities: translated text, localized slides with preserved visual elements, and synthesized speech. This end-to-end approach enables students to access lectures in their native language while aiming to preserve the original content in its entirety. Our experiments demonstrate that slide-aware transcripts also yield cascading benefits for downstream tasks such as summarization and question answering. We release our Slide Translation code at https://github.com/saikoneru/image-translator and integrate it in Lecture Translator at https://gitlab.kit.edu/kit/isl-ai4lt/lt-middleware/ltpipeline}\footnote{All released code and models are licensed under the MIT License.