꼬리가 이야기를 말하다: 캐릭터 이름과 함께한 장별 만화 전사 작업
Tails Tell Tales: Chapter-Wide Manga Transcriptions with Character Names
August 1, 2024
저자: Ragav Sachdeva, Gyungin Shin, Andrew Zisserman
cs.AI
초록
만화의 시각적 특성으로 인해 시각 장애인들의 만화 접근성 보장은 상당한 과제로 여겨져 왔다. 본 논문은 접근성 증진을 목표로, 완전히 자동화된 방식으로 만화 한 챕터의 대화 기록을 생성하는 데 중점을 두며, 특히 내러티브 일관성 유지에 주력한다. 이를 위해 (i) 각 페이지의 텍스트를 감지하고 필수적 vs 비필수적으로 분류하는 것, 그리고 (ii) 각 대화를 발화자에게 귀속시키는 동시에 동일한 캐릭터가 챕터 전체에서 일관되게 명명되도록 하는 작업이 수행된다.
이를 위해 우리는 다음을 제안한다: (i) Magiv2 모델 - 이전 연구 대비 명명된 캐릭터와 함께 챕터 전체의 고품질 만화 대본을 생성할 수 있으며, 발화자 식별 정확도가 크게 향상된 모델; (ii) PopManga 평가 데이터셋의 확장 버전 - 말풍선 꼬리 상자, 텍스트와 해당 꼬리의 연결, 텍스트의 필수/비필수 분류, 각 캐릭터 상자의 신원 정보가 추가된 데이터셋; (iii) 새로운 캐릭터 뱅크 데이터셋 - 76개 만화 시리즈의 11,000명 이상의 캐릭터와 총 11,500개의 예시 캐릭터 이미지, 그리고 각 캐릭터가 등장하는 챕터 목록으로 구성된 데이터셋. 코드, 학습된 모델, 그리고 두 데이터셋은 https://github.com/ragavsachdeva/magi에서 확인할 수 있다.
English
Enabling engagement of manga by visually impaired individuals presents a
significant challenge due to its inherently visual nature. With the goal of
fostering accessibility, this paper aims to generate a dialogue transcript of a
complete manga chapter, entirely automatically, with a particular emphasis on
ensuring narrative consistency. This entails identifying (i) what is being
said, i.e., detecting the texts on each page and classifying them into
essential vs non-essential, and (ii) who is saying it, i.e., attributing each
dialogue to its speaker, while ensuring the same characters are named
consistently throughout the chapter.
To this end, we introduce: (i) Magiv2, a model that is capable of generating
high-quality chapter-wide manga transcripts with named characters and
significantly higher precision in speaker diarisation over prior works; (ii) an
extension of the PopManga evaluation dataset, which now includes annotations
for speech-bubble tail boxes, associations of text to corresponding tails,
classifications of text as essential or non-essential, and the identity for
each character box; and (iii) a new character bank dataset, which comprises
over 11K characters from 76 manga series, featuring 11.5K exemplar character
images in total, as well as a list of chapters in which they appear. The code,
trained model, and both datasets can be found at:
https://github.com/ragavsachdeva/magiSummary
AI-Generated Summary