キャラクター名付き章全体マンガ転写:テールズ・テル・テイルズ
Tails Tell Tales: Chapter-Wide Manga Transcriptions with Character Names
August 1, 2024
著者: Ragav Sachdeva, Gyungin Shin, Andrew Zisserman
cs.AI
要旨
視覚障害者が漫画に触れる機会を提供することは、その本質的に視覚的な性質から大きな課題となっています。本論文では、アクセシビリティの向上を目指し、完全に自動的に漫画の1章分の対話トランスクリプトを生成することを目的としています。特に、物語の一貫性を保つことに重点を置いています。これには、(i) 各ページのテキストを検出し、それを必須か非必須かに分類すること(つまり、何が語られているかを特定すること)、および (ii) 各対話をその発話者に帰属させ、同じキャラクターが章全体で一貫して命名されることを保証すること(つまり、誰が語っているかを特定すること)が含まれます。
この目的のために、以下を紹介します:(i) Magiv2、これは名前付きキャラクターを含む高品質な章全体の漫画トランスクリプトを生成でき、以前の研究よりも大幅に高い精度で発話者分離を行うモデルです;(ii) PopManga評価データセットの拡張版、これには、吹き出しの尾のボックス、テキストと対応する尾の関連付け、テキストの必須/非必須分類、および各キャラクターボックスの識別情報が含まれています;(iii) 新しいキャラクターバンクデータセット、これは76の漫画シリーズから11,000以上のキャラクターを含み、合計11,500のキャラクター画像例と、それらが登場する章のリストを特徴としています。コード、学習済みモデル、および両方のデータセットは、以下で見つけることができます:https://github.com/ragavsachdeva/magi
English
Enabling engagement of manga by visually impaired individuals presents a
significant challenge due to its inherently visual nature. With the goal of
fostering accessibility, this paper aims to generate a dialogue transcript of a
complete manga chapter, entirely automatically, with a particular emphasis on
ensuring narrative consistency. This entails identifying (i) what is being
said, i.e., detecting the texts on each page and classifying them into
essential vs non-essential, and (ii) who is saying it, i.e., attributing each
dialogue to its speaker, while ensuring the same characters are named
consistently throughout the chapter.
To this end, we introduce: (i) Magiv2, a model that is capable of generating
high-quality chapter-wide manga transcripts with named characters and
significantly higher precision in speaker diarisation over prior works; (ii) an
extension of the PopManga evaluation dataset, which now includes annotations
for speech-bubble tail boxes, associations of text to corresponding tails,
classifications of text as essential or non-essential, and the identity for
each character box; and (iii) a new character bank dataset, which comprises
over 11K characters from 76 manga series, featuring 11.5K exemplar character
images in total, as well as a list of chapters in which they appear. The code,
trained model, and both datasets can be found at:
https://github.com/ragavsachdeva/magiSummary
AI-Generated Summary