ChatPaper.aiChatPaper

Les queues racontent des histoires : transcriptions chapitre par chapitre de mangas avec noms de personnages

Tails Tell Tales: Chapter-Wide Manga Transcriptions with Character Names

August 1, 2024
papers.authors: Ragav Sachdeva, Gyungin Shin, Andrew Zisserman
cs.AI

papers.abstract

Permettre l'accès au manga pour les personnes malvoyantes représente un défi majeur en raison de sa nature intrinsèquement visuelle. Dans l'objectif de favoriser l'accessibilité, cet article vise à générer automatiquement une transcription dialoguée d'un chapitre complet de manga, en mettant particulièrement l'accent sur la cohérence narrative. Cela implique d'identifier (i) ce qui est dit, c'est-à-dire détecter les textes sur chaque page et les classer comme essentiels ou non essentiels, et (ii) qui le dit, c'est-à-dire attribuer chaque dialogue à son locuteur, tout en veillant à ce que les mêmes personnages soient nommés de manière cohérente tout au long du chapitre. À cette fin, nous présentons : (i) Magiv2, un modèle capable de générer des transcriptions de manga de haute qualité à l'échelle d'un chapitre, avec des personnages nommés et une précision significativement accrue dans la diarisation des locuteurs par rapport aux travaux précédents ; (ii) une extension du jeu de données d'évaluation PopManga, qui inclut désormais des annotations pour les boîtes de queue des bulles de dialogue, les associations de texte aux queues correspondantes, la classification des textes comme essentiels ou non essentiels, et l'identité de chaque boîte de personnage ; et (iii) un nouveau jeu de données de banque de personnages, comprenant plus de 11 000 personnages issus de 76 séries de manga, avec un total de 11 500 images exemplaires de personnages, ainsi qu'une liste des chapitres dans lesquels ils apparaissent. Le code, le modèle entraîné et les deux jeux de données sont disponibles à l'adresse suivante : https://github.com/ragavsachdeva/magi
English
Enabling engagement of manga by visually impaired individuals presents a significant challenge due to its inherently visual nature. With the goal of fostering accessibility, this paper aims to generate a dialogue transcript of a complete manga chapter, entirely automatically, with a particular emphasis on ensuring narrative consistency. This entails identifying (i) what is being said, i.e., detecting the texts on each page and classifying them into essential vs non-essential, and (ii) who is saying it, i.e., attributing each dialogue to its speaker, while ensuring the same characters are named consistently throughout the chapter. To this end, we introduce: (i) Magiv2, a model that is capable of generating high-quality chapter-wide manga transcripts with named characters and significantly higher precision in speaker diarisation over prior works; (ii) an extension of the PopManga evaluation dataset, which now includes annotations for speech-bubble tail boxes, associations of text to corresponding tails, classifications of text as essential or non-essential, and the identity for each character box; and (iii) a new character bank dataset, which comprises over 11K characters from 76 manga series, featuring 11.5K exemplar character images in total, as well as a list of chapters in which they appear. The code, trained model, and both datasets can be found at: https://github.com/ragavsachdeva/magi
PDF112November 28, 2024