Contos nas Caudas: Transcrições de Mangá em Toda a História com Nomes de Personagens
Tails Tell Tales: Chapter-Wide Manga Transcriptions with Character Names
August 1, 2024
Autores: Ragav Sachdeva, Gyungin Shin, Andrew Zisserman
cs.AI
Resumo
Possibilitar o envolvimento de indivíduos com deficiência visual com mangás representa um desafio significativo devido à sua natureza visual inerente. Com o objetivo de promover a acessibilidade, este artigo visa gerar uma transcrição de diálogo de um capítulo completo de mangá, de forma totalmente automática, com ênfase na garantia de consistência narrativa. Isso envolve identificar (i) o que está sendo dito, ou seja, detectar os textos em cada página e classificá-los como essenciais ou não essenciais, e (ii) quem está dizendo, ou seja, atribuir cada diálogo ao seu falante, garantindo que os mesmos personagens sejam nomeados de forma consistente ao longo do capítulo.
Para isso, apresentamos: (i) Magiv2, um modelo capaz de gerar transcrições de mangá de alta qualidade em todo o capítulo, com personagens nomeados e uma precisão significativamente maior na diarização de falantes em comparação com trabalhos anteriores; (ii) uma extensão do conjunto de dados de avaliação PopManga, que agora inclui anotações para caixas de balões de fala, associações de texto às caudas correspondentes, classificações de texto como essencial ou não essencial e a identidade de cada caixa de personagem; e (iii) um novo conjunto de dados de banco de personagens, que compreende mais de 11 mil personagens de 76 séries de mangá, apresentando um total de 11,5 mil imagens de personagens exemplares, bem como uma lista de capítulos em que aparecem. O código, modelo treinado e ambos os conjuntos de dados podem ser encontrados em: https://github.com/ragavsachdeva/magi
English
Enabling engagement of manga by visually impaired individuals presents a
significant challenge due to its inherently visual nature. With the goal of
fostering accessibility, this paper aims to generate a dialogue transcript of a
complete manga chapter, entirely automatically, with a particular emphasis on
ensuring narrative consistency. This entails identifying (i) what is being
said, i.e., detecting the texts on each page and classifying them into
essential vs non-essential, and (ii) who is saying it, i.e., attributing each
dialogue to its speaker, while ensuring the same characters are named
consistently throughout the chapter.
To this end, we introduce: (i) Magiv2, a model that is capable of generating
high-quality chapter-wide manga transcripts with named characters and
significantly higher precision in speaker diarisation over prior works; (ii) an
extension of the PopManga evaluation dataset, which now includes annotations
for speech-bubble tail boxes, associations of text to corresponding tails,
classifications of text as essential or non-essential, and the identity for
each character box; and (iii) a new character bank dataset, which comprises
over 11K characters from 76 manga series, featuring 11.5K exemplar character
images in total, as well as a list of chapters in which they appear. The code,
trained model, and both datasets can be found at:
https://github.com/ragavsachdeva/magiSummary
AI-Generated Summary