ChatPaper.aiChatPaper

BOOM: Más Allá de una Sola Modalidad - El Acompañante Multimodal y Multilingüe para Conferencias del KIT

BOOM: Beyond Only One Modality KIT's Multimodal Multilingual Lecture Companion

December 2, 2025
Autores: Sai Koneru, Fabian Retkowski, Christian Huber, Lukas Hilgert, Seymanur Akti, Enes Yavuz Ugan, Alexander Waibel, Jan Niehues
cs.AI

Resumen

La globalización de la educación y el rápido crecimiento del aprendizaje en línea han convertido la localización de contenidos educativos en un desafío crítico. Los materiales de las clases son inherentemente multimodales, ya que combinan audio hablado con diapositivas visuales, lo que requiere sistemas capaces de procesar múltiples modalidades de entrada. Para ofrecer una experiencia de aprendizaje accesible y completa, las traducciones deben preservar todas las modalidades: texto para la lectura, diapositivas para la comprensión visual y voz para el aprendizaje auditivo. Presentamos BOOM, un asistente de clases multilingüe y multimodal que traduce conjuntamente el audio y las diapositivas de las clases para producir resultados sincronizados en tres modalidades: texto traducido, diapositivas localizadas con elementos visuales preservados y voz sintetizada. Este enfoque integral permite a los estudiantes acceder a las clases en su idioma nativo con el objetivo de preservar el contenido original en su totalidad. Nuestros experimentos demuestran que las transcripciones que tienen en cuenta las diapositivas también generan beneficios en cascada para tareas posteriores, como la resumen de contenidos y la respuesta a preguntas. Publicamos nuestro código de Traducción de Diapositivas en https://github.com/saikoneru/image-translator y lo integramos en Lecture Translator en https://gitlab.kit.edu/kit/isl-ai4lt/lt-middleware/ltpipeline}\footnote{Todo el código y los modelos publicados tienen licencia MIT.}
English
The globalization of education and rapid growth of online learning have made localizing educational content a critical challenge. Lecture materials are inherently multimodal, combining spoken audio with visual slides, which requires systems capable of processing multiple input modalities. To provide an accessible and complete learning experience, translations must preserve all modalities: text for reading, slides for visual understanding, and speech for auditory learning. We present BOOM, a multimodal multilingual lecture companion that jointly translates lecture audio and slides to produce synchronized outputs across three modalities: translated text, localized slides with preserved visual elements, and synthesized speech. This end-to-end approach enables students to access lectures in their native language while aiming to preserve the original content in its entirety. Our experiments demonstrate that slide-aware transcripts also yield cascading benefits for downstream tasks such as summarization and question answering. We release our Slide Translation code at https://github.com/saikoneru/image-translator and integrate it in Lecture Translator at https://gitlab.kit.edu/kit/isl-ai4lt/lt-middleware/ltpipeline}\footnote{All released code and models are licensed under the MIT License.
PDF01December 4, 2025