Schwänze erzählen Geschichten: Manga-Transkriptionen auf Kapitelebene mit Charakternamen
Tails Tell Tales: Chapter-Wide Manga Transcriptions with Character Names
August 1, 2024
Autoren: Ragav Sachdeva, Gyungin Shin, Andrew Zisserman
cs.AI
Zusammenfassung
Die Ermöglichung der Nutzung von Manga durch sehbehinderte Personen stellt eine bedeutende Herausforderung aufgrund seiner grundsätzlich visuellen Natur dar. Mit dem Ziel, die Zugänglichkeit zu fördern, zielt diese Arbeit darauf ab, ein Dialogtranskript eines vollständigen Manga-Kapitels vollständig automatisch zu generieren, wobei ein besonderer Schwerpunkt auf der Sicherstellung der narrativen Konsistenz liegt. Dies beinhaltet die Identifizierung (i) dessen, was gesagt wird, d. h. das Erkennen der Texte auf jeder Seite und deren Einteilung in wesentlich vs. nicht-wesentlich, und (ii) wer es sagt, d. h. das Zuordnen jedes Dialogs zu seinem Sprecher, während sichergestellt wird, dass die gleichen Charaktere im gesamten Kapitel konsistent benannt werden.
Zu diesem Zweck stellen wir vor: (i) Magiv2, ein Modell, das in der Lage ist, hochwertige, kapitelweite Manga-Transkripte mit benannten Charakteren zu generieren und eine signifikant höhere Präzision bei der Sprecher-Diarisierung im Vergleich zu früheren Arbeiten aufweist; (ii) eine Erweiterung des PopManga-Evaluationsdatensatzes, der nun auch Annotationen für Sprechblasenschwänze, Zuordnungen von Text zu entsprechenden Schwänzen, Klassifizierungen von Text als wesentlich oder nicht-wesentlich und die Identität für jedes Charakterfeld umfasst; und (iii) einen neuen Charakterbank-Datensatz, der über 11.000 Charaktere aus 76 Manga-Serien umfasst, mit insgesamt 11.500 exemplarischen Charakterbildern sowie einer Liste der Kapitel, in denen sie erscheinen. Der Code, das trainierte Modell und beide Datensätze finden sich unter: https://github.com/ragavsachdeva/magi
English
Enabling engagement of manga by visually impaired individuals presents a
significant challenge due to its inherently visual nature. With the goal of
fostering accessibility, this paper aims to generate a dialogue transcript of a
complete manga chapter, entirely automatically, with a particular emphasis on
ensuring narrative consistency. This entails identifying (i) what is being
said, i.e., detecting the texts on each page and classifying them into
essential vs non-essential, and (ii) who is saying it, i.e., attributing each
dialogue to its speaker, while ensuring the same characters are named
consistently throughout the chapter.
To this end, we introduce: (i) Magiv2, a model that is capable of generating
high-quality chapter-wide manga transcripts with named characters and
significantly higher precision in speaker diarisation over prior works; (ii) an
extension of the PopManga evaluation dataset, which now includes annotations
for speech-bubble tail boxes, associations of text to corresponding tails,
classifications of text as essential or non-essential, and the identity for
each character box; and (iii) a new character bank dataset, which comprises
over 11K characters from 76 manga series, featuring 11.5K exemplar character
images in total, as well as a list of chapters in which they appear. The code,
trained model, and both datasets can be found at:
https://github.com/ragavsachdeva/magiSummary
AI-Generated Summary