MangaVQA und MangaLMM: Ein Benchmark und spezialisiertes Modell für multimodales Manga-Verständnis

papers.abstract

Manga, oder japanische Comics, sind eine reichhaltig multimodale Erzählform, die Bilder und Text auf komplexe Weise miteinander verbindet. Das Training großer multimodaler Modelle (LMMs), um solche Erzählungen auf einem menschenähnlichen Niveau zu verstehen, könnte Manga-Schöpfern helfen, ihre Geschichten zu reflektieren und zu verfeinern. Zu diesem Zweck führen wir zwei Benchmarks für das multimodale Manga-Verständnis ein: MangaOCR, das sich auf die Texterkennung innerhalb der Seiten konzentriert, und MangaVQA, einen neuartigen Benchmark, der entwickelt wurde, um das kontextuelle Verständnis durch visuelles Frage-Antworten zu bewerten. MangaVQA besteht aus 526 hochwertigen, manuell erstellten Frage-Antwort-Paaren, die eine zuverlässige Bewertung über diverse narrative und visuelle Szenarien hinweg ermöglichen. Aufbauend auf diesen Benchmarks entwickeln wir MangaLMM, ein auf Manga spezialisiertes Modell, das aus dem Open-Source-LMM Qwen2.5-VL feinabgestimmt wurde, um beide Aufgaben gemeinsam zu bewältigen. Durch umfangreiche Experimente, einschließlich Vergleichen mit proprietären Modellen wie GPT-4o und Gemini 2.5, bewerten wir, wie gut LMMs Manga verstehen. Unser Benchmark und Modell bieten eine umfassende Grundlage für die Bewertung und Weiterentwicklung von LMMs im reichhaltig narrativen Bereich des Manga.

English

Manga, or Japanese comics, is a richly multimodal narrative form that blends images and text in complex ways. Teaching large multimodal models (LMMs) to understand such narratives at a human-like level could help manga creators reflect on and refine their stories. To this end, we introduce two benchmarks for multimodal manga understanding: MangaOCR, which targets in-page text recognition, and MangaVQA, a novel benchmark designed to evaluate contextual understanding through visual question answering. MangaVQA consists of 526 high-quality, manually constructed question-answer pairs, enabling reliable evaluation across diverse narrative and visual scenarios. Building on these benchmarks, we develop MangaLMM, a manga-specialized model finetuned from the open-source LMM Qwen2.5-VL to jointly handle both tasks. Through extensive experiments, including comparisons with proprietary models such as GPT-4o and Gemini 2.5, we assess how well LMMs understand manga. Our benchmark and model provide a comprehensive foundation for evaluating and advancing LMMs in the richly narrative domain of manga.

MangaVQA und MangaLMM: Ein Benchmark und spezialisiertes Modell für multimodales Manga-Verständnis

MangaVQA and MangaLMM: A Benchmark and Specialized Model for Multimodal Manga Understanding

papers.abstract

Support