Хвосты Рассказывают Истории: Транскрипции Манги на Уровне Глав с Именами Персонажей
Tails Tell Tales: Chapter-Wide Manga Transcriptions with Character Names
August 1, 2024
Авторы: Ragav Sachdeva, Gyungin Shin, Andrew Zisserman
cs.AI
Аннотация
Обеспечение доступа к манге для лиц с нарушениями зрения представляет собой значительное испытание из-за ее визуальной природы. С целью повышения доступности настоящая статья нацелена на создание транскрипта диалогов полной главы манги полностью автоматически с особым акцентом на обеспечение согласованности повествования. Это включает в себя определение (i) сказанного, т.е. обнаружение текстов на каждой странице и классификацию их на существенные и несущественные, и (ii) кто это сказал, т.е. присвоение каждому диалогу его говорящего, обеспечивая одинаковое именование персонажей на протяжении главы.
Для этого мы представляем: (i) модель Magiv2, способную генерировать высококачественные транскрипты манги на уровне главы с именованными персонажами и значительно более высокой точностью в диаризации говорящих по сравнению с предыдущими работами; (ii) расширение набора данных для оценки PopManga, который теперь включает аннотации для хвостовых областей облаков речи, ассоциации текста с соответствующими хвостами, классификации текста как существенного или несущественного и идентификации каждого блока персонажа; и (iii) новый набор данных о персонажах, включающий более 11 тыс. персонажей из 76 серий манги, с общим числом 11,5 тыс. образцов изображений персонажей, а также список глав, в которых они появляются. Код, обученная модель и оба набора данных можно найти по ссылке: https://github.com/ragavsachdeva/magi
English
Enabling engagement of manga by visually impaired individuals presents a
significant challenge due to its inherently visual nature. With the goal of
fostering accessibility, this paper aims to generate a dialogue transcript of a
complete manga chapter, entirely automatically, with a particular emphasis on
ensuring narrative consistency. This entails identifying (i) what is being
said, i.e., detecting the texts on each page and classifying them into
essential vs non-essential, and (ii) who is saying it, i.e., attributing each
dialogue to its speaker, while ensuring the same characters are named
consistently throughout the chapter.
To this end, we introduce: (i) Magiv2, a model that is capable of generating
high-quality chapter-wide manga transcripts with named characters and
significantly higher precision in speaker diarisation over prior works; (ii) an
extension of the PopManga evaluation dataset, which now includes annotations
for speech-bubble tail boxes, associations of text to corresponding tails,
classifications of text as essential or non-essential, and the identity for
each character box; and (iii) a new character bank dataset, which comprises
over 11K characters from 76 manga series, featuring 11.5K exemplar character
images in total, as well as a list of chapters in which they appear. The code,
trained model, and both datasets can be found at:
https://github.com/ragavsachdeva/magiSummary
AI-Generated Summary