ChatPaper.aiChatPaper

Staarten Vertellen Verhalen: Hoofdstukbrede Manga-transcripties met Karakternamen

Tails Tell Tales: Chapter-Wide Manga Transcriptions with Character Names

August 1, 2024
Auteurs: Ragav Sachdeva, Gyungin Shin, Andrew Zisserman
cs.AI

Samenvatting

Het mogelijk maken van betrokkenheid bij manga voor visueel beperkte personen vormt een aanzienlijke uitdaging vanwege de inherent visuele aard ervan. Met het doel om toegankelijkheid te bevorderen, beoogt dit artikel een dialoogtranscript van een volledig mangahoofdstuk volledig automatisch te genereren, met bijzondere nadruk op het waarborgen van narratieve consistentie. Dit houdt in het identificeren van (i) wat er wordt gezegd, d.w.z. het detecteren van de teksten op elke pagina en deze classificeren als essentieel versus niet-essentieel, en (ii) wie het zegt, d.w.z. het toeschrijven van elke dialoog aan de spreker, terwijl ervoor wordt gezorgd dat dezelfde personages gedurende het hele hoofdstuk consistent worden benoemd. Hiertoe introduceren we: (i) Magiv2, een model dat in staat is om hoogwaardige transcripten van mangahoofdstukken te genereren met benoemde personages en een aanzienlijk hogere precisie in sprekerdiarisering dan eerdere werken; (ii) een uitbreiding van de PopManga-evaluatiedataset, die nu annotaties bevat voor spreekballonstaartvakken, associaties van tekst met bijbehorende staarten, classificaties van tekst als essentieel of niet-essentieel, en de identiteit voor elk personagevak; en (iii) een nieuwe personagebankdataset, die meer dan 11K personages uit 76 mangaseries omvat, met in totaal 11.5K voorbeeldafbeeldingen van personages, evenals een lijst van hoofdstukken waarin ze voorkomen. De code, het getrainde model en beide datasets zijn te vinden op: https://github.com/ragavsachdeva/magi
English
Enabling engagement of manga by visually impaired individuals presents a significant challenge due to its inherently visual nature. With the goal of fostering accessibility, this paper aims to generate a dialogue transcript of a complete manga chapter, entirely automatically, with a particular emphasis on ensuring narrative consistency. This entails identifying (i) what is being said, i.e., detecting the texts on each page and classifying them into essential vs non-essential, and (ii) who is saying it, i.e., attributing each dialogue to its speaker, while ensuring the same characters are named consistently throughout the chapter. To this end, we introduce: (i) Magiv2, a model that is capable of generating high-quality chapter-wide manga transcripts with named characters and significantly higher precision in speaker diarisation over prior works; (ii) an extension of the PopManga evaluation dataset, which now includes annotations for speech-bubble tail boxes, associations of text to corresponding tails, classifications of text as essential or non-essential, and the identity for each character box; and (iii) a new character bank dataset, which comprises over 11K characters from 76 manga series, featuring 11.5K exemplar character images in total, as well as a list of chapters in which they appear. The code, trained model, and both datasets can be found at: https://github.com/ragavsachdeva/magi
PDF102February 7, 2026