Le Code delle Code: Trascrizioni Capitolo per Capitolo di Manga con Nomi dei Personaggi
Tails Tell Tales: Chapter-Wide Manga Transcriptions with Character Names
August 1, 2024
Autori: Ragav Sachdeva, Gyungin Shin, Andrew Zisserman
cs.AI
Abstract
Abilitare l'accesso ai manga per le persone con disabilità visive rappresenta una sfida significativa a causa della loro natura intrinsecamente visiva. Con l'obiettivo di promuovere l'accessibilità, questo articolo mira a generare automaticamente una trascrizione del dialogo di un intero capitolo di manga, con un'enfasi particolare sul garantire la coerenza narrativa. Ciò implica identificare (i) ciò che viene detto, ovvero rilevare i testi su ogni pagina e classificarli come essenziali o non essenziali, e (ii) chi lo sta dicendo, ovvero attribuire ogni dialogo al suo parlante, assicurando che gli stessi personaggi siano nominati in modo coerente in tutto il capitolo.
A tal fine, introduciamo: (i) Magiv2, un modello in grado di generare trascrizioni di manga di alta qualità a livello di capitolo con personaggi nominati e una precisione significativamente maggiore nella diarizzazione dei parlanti rispetto ai lavori precedenti; (ii) un'estensione del dataset di valutazione PopManga, che ora include annotazioni per le caselle delle code dei fumetti, associazioni del testo alle corrispondenti code, classificazioni del testo come essenziale o non essenziale e l'identità per ogni casella del personaggio; e (iii) un nuovo dataset di personaggi, che comprende oltre 11K personaggi provenienti da 76 serie di manga, con un totale di 11.5K immagini esemplari di personaggi, oltre a un elenco di capitoli in cui appaiono. Il codice, il modello addestrato e entrambi i dataset sono disponibili all'indirizzo:
https://github.com/ragavsachdeva/magi
English
Enabling engagement of manga by visually impaired individuals presents a
significant challenge due to its inherently visual nature. With the goal of
fostering accessibility, this paper aims to generate a dialogue transcript of a
complete manga chapter, entirely automatically, with a particular emphasis on
ensuring narrative consistency. This entails identifying (i) what is being
said, i.e., detecting the texts on each page and classifying them into
essential vs non-essential, and (ii) who is saying it, i.e., attributing each
dialogue to its speaker, while ensuring the same characters are named
consistently throughout the chapter.
To this end, we introduce: (i) Magiv2, a model that is capable of generating
high-quality chapter-wide manga transcripts with named characters and
significantly higher precision in speaker diarisation over prior works; (ii) an
extension of the PopManga evaluation dataset, which now includes annotations
for speech-bubble tail boxes, associations of text to corresponding tails,
classifications of text as essential or non-essential, and the identity for
each character box; and (iii) a new character bank dataset, which comprises
over 11K characters from 76 manga series, featuring 11.5K exemplar character
images in total, as well as a list of chapters in which they appear. The code,
trained model, and both datasets can be found at:
https://github.com/ragavsachdeva/magi