ChatPaper.aiChatPaper

BOOM: 단일 양식의 한계를 넘어서는 KIT의 다중 양식 다국어 강의 동반자

BOOM: Beyond Only One Modality KIT's Multimodal Multilingual Lecture Companion

December 2, 2025
저자: Sai Koneru, Fabian Retkowski, Christian Huber, Lukas Hilgert, Seymanur Akti, Enes Yavuz Ugan, Alexander Waibel, Jan Niehues
cs.AI

초록

교육의 세계화와 온라인 학습의 급속한 성장은 교육 콘텐츠의 현지화를 중요한 과제로 만들었습니다. 강의 자료는 본질적으로 음성 오디오와 시각적 슬라이드가 결합된 멀티모달 특성을 지니며, 이는 여러 입력 양식을 처리할 수 있는 시스템을 필요로 합니다. 접근성이 높고 완전한 학습 경험을 제공하기 위해서는 번역이 모든 양식을 보존해야 합니다: 읽기를 위한 텍스트, 시각적 이해를 위한 슬라이드, 청각 학습을 위한 음성. 본 논문에서는 강의 오디오와 슬라이드를 함께 번역하여 번역된 텍스트, 시각적 요소가 보존된 현지화된 슬라이드, 합성 음성이라는 세 가지 양식에서 동기화된 출력을 생성하는 멀티모달 다국어 강의 동반자 BOOM을 소개합니다. 이러한 종단간 접근 방식은 학생들이 모국어로 강의에 접근할 수 있도록 하면서 원본 콘텐츠의 전체성을 보존하는 것을 목표로 합니다. 우리의 실험은 슬라이드 인식 성적록이 요약 및 질의응답과 같은 다운스트림 작업에 연쇄적인 이점을 제공함을 보여줍니다. 우리는 슬라이드 번역 코드를 https://github.com/saikoneru/image-translator 에 공개하고 이를 Lecture Translator에 https://gitlab.kit.edu/kit/isl-ai4lt/lt-middleware/ltpipeline 에 통합했습니다\footnote{공개된 모든 코드와 모델은 MIT 라이선스 하에 있습니다.}.
English
The globalization of education and rapid growth of online learning have made localizing educational content a critical challenge. Lecture materials are inherently multimodal, combining spoken audio with visual slides, which requires systems capable of processing multiple input modalities. To provide an accessible and complete learning experience, translations must preserve all modalities: text for reading, slides for visual understanding, and speech for auditory learning. We present BOOM, a multimodal multilingual lecture companion that jointly translates lecture audio and slides to produce synchronized outputs across three modalities: translated text, localized slides with preserved visual elements, and synthesized speech. This end-to-end approach enables students to access lectures in their native language while aiming to preserve the original content in its entirety. Our experiments demonstrate that slide-aware transcripts also yield cascading benefits for downstream tasks such as summarization and question answering. We release our Slide Translation code at https://github.com/saikoneru/image-translator and integrate it in Lecture Translator at https://gitlab.kit.edu/kit/isl-ai4lt/lt-middleware/ltpipeline}\footnote{All released code and models are licensed under the MIT License.
PDF01December 4, 2025