ChatPaper.aiChatPaper

MangaVQA en MangaLMM: Een Benchmark en Gespecialiseerd Model voor Multimodaal Manga-begrip

MangaVQA and MangaLMM: A Benchmark and Specialized Model for Multimodal Manga Understanding

May 26, 2025
Auteurs: Jeonghun Baek, Kazuki Egashira, Shota Onohara, Atsuyuki Miyai, Yuki Imajuku, Hikaru Ikuta, Kiyoharu Aizawa
cs.AI

Samenvatting

Manga, of Japanse strips, is een rijk multimodaal narratief medium dat beelden en tekst op complexe manieren combineert. Het aanleren van grote multimodale modellen (LMMs) om dergelijke verhalen op een menselijk niveau te begrijpen, zou manga-makers kunnen helpen hun verhalen te reflecteren en te verfijnen. Met dit doel introduceren we twee benchmarks voor multimodaal manga-begrip: MangaOCR, dat gericht is op tekstherkenning binnen pagina's, en MangaVQA, een nieuwe benchmark ontworpen om contextueel begrip te evalueren via visuele vraag-antwoordtaken. MangaVQA bestaat uit 526 hoogwaardige, handmatig geconstrueerde vraag-antwoordparen, wat een betrouwbare evaluatie mogelijk maakt in diverse narratieve en visuele scenario's. Gebaseerd op deze benchmarks ontwikkelen we MangaLMM, een manga-gespecialiseerd model dat is gefinetuned vanuit het open-source LMM Qwen2.5-VL om beide taken gezamenlijk aan te pakken. Door middel van uitgebreide experimenten, inclusief vergelijkingen met propriëtaire modellen zoals GPT-4o en Gemini 2.5, beoordelen we hoe goed LMMs manga begrijpen. Onze benchmark en model bieden een uitgebreide basis voor het evalueren en verbeteren van LMMs in het rijk narratieve domein van manga.
English
Manga, or Japanese comics, is a richly multimodal narrative form that blends images and text in complex ways. Teaching large multimodal models (LMMs) to understand such narratives at a human-like level could help manga creators reflect on and refine their stories. To this end, we introduce two benchmarks for multimodal manga understanding: MangaOCR, which targets in-page text recognition, and MangaVQA, a novel benchmark designed to evaluate contextual understanding through visual question answering. MangaVQA consists of 526 high-quality, manually constructed question-answer pairs, enabling reliable evaluation across diverse narrative and visual scenarios. Building on these benchmarks, we develop MangaLMM, a manga-specialized model finetuned from the open-source LMM Qwen2.5-VL to jointly handle both tasks. Through extensive experiments, including comparisons with proprietary models such as GPT-4o and Gemini 2.5, we assess how well LMMs understand manga. Our benchmark and model provide a comprehensive foundation for evaluating and advancing LMMs in the richly narrative domain of manga.
PDF92May 29, 2025