BOOM: 単一モダリティを超えて KITのマルチモーダル・マルチリンガル講義コンパニオン
BOOM: Beyond Only One Modality KIT's Multimodal Multilingual Lecture Companion
December 2, 2025
著者: Sai Koneru, Fabian Retkowski, Christian Huber, Lukas Hilgert, Seymanur Akti, Enes Yavuz Ugan, Alexander Waibel, Jan Niehues
cs.AI
要旨
教育のグローバル化とオンライン学習の急速な発展により、教育コンテンツのローカライゼーションは重要な課題となっている。講義資料は本質的にマルチモーダルであり、音声と視覚的なスライドが組み合わさっているため、複数の入力モダリティを処理できるシステムが求められる。アクセシブルで完全な学習体験を提供するには、翻訳はすべてのモダリティを保持しなければならない:読むためのテキスト、視覚的理解のためのスライド、聴覚学習のための音声である。本論文では、講義の音声とスライドを共同で翻訳し、翻訳されたテキスト、視覚要素を保持したローカライズ版スライド、合成音声という3つのモダリティで同期した出力を生成するマルチモーダル多言語講義コンパニオン「BOOM」を提案する。このエンドツーエンドのアプローチにより、学生は母国語で講義にアクセスできながら、オリジナルコンテンツを完全に保存することを目指す。我々の実験により、スライドを考慮した書き起こし文が、要約や質問応答などの下流タスクにも連鎖的な利益をもたらすことが実証された。スライド翻訳コードはhttps://github.com/saikoneru/image-translator で公開し、Lecture Translator に https://gitlab.kit.edu/kit/isl-ai4lt/lt-middleware/ltpipeline にて統合した}\footnote{公開されているすべてのコードとモデルはMITライセンスの下で提供されている。}
English
The globalization of education and rapid growth of online learning have made localizing educational content a critical challenge. Lecture materials are inherently multimodal, combining spoken audio with visual slides, which requires systems capable of processing multiple input modalities. To provide an accessible and complete learning experience, translations must preserve all modalities: text for reading, slides for visual understanding, and speech for auditory learning. We present BOOM, a multimodal multilingual lecture companion that jointly translates lecture audio and slides to produce synchronized outputs across three modalities: translated text, localized slides with preserved visual elements, and synthesized speech. This end-to-end approach enables students to access lectures in their native language while aiming to preserve the original content in its entirety. Our experiments demonstrate that slide-aware transcripts also yield cascading benefits for downstream tasks such as summarization and question answering. We release our Slide Translation code at https://github.com/saikoneru/image-translator and integrate it in Lecture Translator at https://gitlab.kit.edu/kit/isl-ai4lt/lt-middleware/ltpipeline}\footnote{All released code and models are licensed under the MIT License.