ChatPaper.aiChatPaper

BOOM: Além de Apenas uma Modalidade - O Companheiro Multimodal e Multilíngue para Aulas do KIT

BOOM: Beyond Only One Modality KIT's Multimodal Multilingual Lecture Companion

December 2, 2025
Autores: Sai Koneru, Fabian Retkowski, Christian Huber, Lukas Hilgert, Seymanur Akti, Enes Yavuz Ugan, Alexander Waibel, Jan Niehues
cs.AI

Resumo

A globalização da educação e o rápido crescimento do aprendizado online tornaram a localização de conteúdo educacional um desafio crítico. Os materiais de aula são inerentemente multimodais, combinando áudio falado com slides visuais, o que exige sistemas capazes de processar múltiplos modos de entrada. Para proporcionar uma experiência de aprendizagem acessível e completa, as traduções devem preservar todas as modalidades: texto para leitura, slides para compreensão visual e fala para aprendizado auditivo. Apresentamos o BOOM, um companheiro de aula multimodal e multilíngue que traduz conjuntamente o áudio e os slides da aula para produzir saídas sincronizadas em três modalidades: texto traduzido, slides localizados com elementos visuais preservados e fala sintetizada. Esta abordagem de ponta a ponta permite que os alunos acessem as aulas em seu idioma nativo, visando preservar o conteúdo original em sua totalidade. Nossos experimentos demonstram que as transcrições com consciência dos slides também produzem benefícios em cascata para tarefas subsequentes, como sumarização e resposta a perguntas. Disponibilizamos nosso código de Tradução de Slides em https://github.com/saikoneru/image-translator e o integramos no Lecture Translator em https://gitlab.kit.edu/kit/isl-ai4lt/lt-middleware/ltpipeline}\footnote{Todo o código e modelos disponibilizados estão licenciados sob a Licença MIT.}
English
The globalization of education and rapid growth of online learning have made localizing educational content a critical challenge. Lecture materials are inherently multimodal, combining spoken audio with visual slides, which requires systems capable of processing multiple input modalities. To provide an accessible and complete learning experience, translations must preserve all modalities: text for reading, slides for visual understanding, and speech for auditory learning. We present BOOM, a multimodal multilingual lecture companion that jointly translates lecture audio and slides to produce synchronized outputs across three modalities: translated text, localized slides with preserved visual elements, and synthesized speech. This end-to-end approach enables students to access lectures in their native language while aiming to preserve the original content in its entirety. Our experiments demonstrate that slide-aware transcripts also yield cascading benefits for downstream tasks such as summarization and question answering. We release our Slide Translation code at https://github.com/saikoneru/image-translator and integrate it in Lecture Translator at https://gitlab.kit.edu/kit/isl-ai4lt/lt-middleware/ltpipeline}\footnote{All released code and models are licensed under the MIT License.
PDF22April 2, 2026