MangaVQA und MangaLMM: Ein Benchmark und spezialisiertes Modell für multimodales Manga-Verständnis
MangaVQA and MangaLMM: A Benchmark and Specialized Model for Multimodal Manga Understanding
May 26, 2025
Autoren: Jeonghun Baek, Kazuki Egashira, Shota Onohara, Atsuyuki Miyai, Yuki Imajuku, Hikaru Ikuta, Kiyoharu Aizawa
cs.AI
Zusammenfassung
Manga, oder japanische Comics, sind eine reichhaltig multimodale Erzählform, die Bilder und Text auf komplexe Weise miteinander verbindet. Das Training großer multimodaler Modelle (LMMs), um solche Erzählungen auf einem menschenähnlichen Niveau zu verstehen, könnte Manga-Schöpfern helfen, ihre Geschichten zu reflektieren und zu verfeinern. Zu diesem Zweck führen wir zwei Benchmarks für das multimodale Manga-Verständnis ein: MangaOCR, das sich auf die Texterkennung innerhalb der Seiten konzentriert, und MangaVQA, einen neuartigen Benchmark, der entwickelt wurde, um das kontextuelle Verständnis durch visuelles Frage-Antworten zu bewerten. MangaVQA besteht aus 526 hochwertigen, manuell erstellten Frage-Antwort-Paaren, die eine zuverlässige Bewertung über diverse narrative und visuelle Szenarien hinweg ermöglichen. Aufbauend auf diesen Benchmarks entwickeln wir MangaLMM, ein auf Manga spezialisiertes Modell, das aus dem Open-Source-LMM Qwen2.5-VL feinabgestimmt wurde, um beide Aufgaben gemeinsam zu bewältigen. Durch umfangreiche Experimente, einschließlich Vergleichen mit proprietären Modellen wie GPT-4o und Gemini 2.5, bewerten wir, wie gut LMMs Manga verstehen. Unser Benchmark und Modell bieten eine umfassende Grundlage für die Bewertung und Weiterentwicklung von LMMs im reichhaltig narrativen Bereich des Manga.
English
Manga, or Japanese comics, is a richly multimodal narrative form that blends
images and text in complex ways. Teaching large multimodal models (LMMs) to
understand such narratives at a human-like level could help manga creators
reflect on and refine their stories. To this end, we introduce two benchmarks
for multimodal manga understanding: MangaOCR, which targets in-page text
recognition, and MangaVQA, a novel benchmark designed to evaluate contextual
understanding through visual question answering. MangaVQA consists of 526
high-quality, manually constructed question-answer pairs, enabling reliable
evaluation across diverse narrative and visual scenarios. Building on these
benchmarks, we develop MangaLMM, a manga-specialized model finetuned from the
open-source LMM Qwen2.5-VL to jointly handle both tasks. Through extensive
experiments, including comparisons with proprietary models such as GPT-4o and
Gemini 2.5, we assess how well LMMs understand manga. Our benchmark and model
provide a comprehensive foundation for evaluating and advancing LMMs in the
richly narrative domain of manga.Summary
AI-Generated Summary