Colas Cuentan Cuentos: Transcripciones de Manga a Nivel de Capítulo con Nombres de Personajes
Tails Tell Tales: Chapter-Wide Manga Transcriptions with Character Names
August 1, 2024
Autores: Ragav Sachdeva, Gyungin Shin, Andrew Zisserman
cs.AI
Resumen
Facilitar la participación de personas con discapacidad visual en el manga presenta un desafío significativo debido a su naturaleza visual inherente. Con el objetivo de fomentar la accesibilidad, este documento tiene como objetivo generar una transcripción de diálogo de un capítulo completo de manga de forma totalmente automática, con un énfasis particular en garantizar la coherencia narrativa. Esto implica identificar (i) lo que se está diciendo, es decir, detectar los textos en cada página y clasificarlos en esenciales vs. no esenciales, y (ii) quién lo está diciendo, es decir, atribuir cada diálogo a su hablante, asegurando que los mismos personajes sean nombrados de manera consistente a lo largo del capítulo.
Con este fin, presentamos: (i) Magiv2, un modelo capaz de generar transcripciones de manga de alta calidad en todo el capítulo con personajes nombrados y una precisión significativamente mayor en la diarización de hablantes que trabajos anteriores; (ii) una extensión del conjunto de datos de evaluación PopManga, que ahora incluye anotaciones para cajas de cola de bocadillos, asociaciones de texto a colas correspondientes, clasificaciones de texto como esencial o no esencial, y la identidad de cada caja de personaje; y (iii) un nuevo conjunto de datos de banco de personajes, que comprende más de 11K personajes de 76 series de manga, con 11.5K imágenes de personajes ejemplares en total, así como una lista de capítulos en los que aparecen. El código, el modelo entrenado y ambos conjuntos de datos se pueden encontrar en: https://github.com/ragavsachdeva/magi
English
Enabling engagement of manga by visually impaired individuals presents a
significant challenge due to its inherently visual nature. With the goal of
fostering accessibility, this paper aims to generate a dialogue transcript of a
complete manga chapter, entirely automatically, with a particular emphasis on
ensuring narrative consistency. This entails identifying (i) what is being
said, i.e., detecting the texts on each page and classifying them into
essential vs non-essential, and (ii) who is saying it, i.e., attributing each
dialogue to its speaker, while ensuring the same characters are named
consistently throughout the chapter.
To this end, we introduce: (i) Magiv2, a model that is capable of generating
high-quality chapter-wide manga transcripts with named characters and
significantly higher precision in speaker diarisation over prior works; (ii) an
extension of the PopManga evaluation dataset, which now includes annotations
for speech-bubble tail boxes, associations of text to corresponding tails,
classifications of text as essential or non-essential, and the identity for
each character box; and (iii) a new character bank dataset, which comprises
over 11K characters from 76 manga series, featuring 11.5K exemplar character
images in total, as well as a list of chapters in which they appear. The code,
trained model, and both datasets can be found at:
https://github.com/ragavsachdeva/magiSummary
AI-Generated Summary