MangaVQAとMangaLMM:マルチモーダルなマンガ理解のためのベンチマークと専門モデル
MangaVQA and MangaLMM: A Benchmark and Specialized Model for Multimodal Manga Understanding
May 26, 2025
著者: Jeonghun Baek, Kazuki Egashira, Shota Onohara, Atsuyuki Miyai, Yuki Imajuku, Hikaru Ikuta, Kiyoharu Aizawa
cs.AI
要旨
マンガ、または日本の漫画は、画像とテキストを複雑に融合させた豊かなマルチモーダルな物語形式です。大規模マルチモーダルモデル(LMM)にこのような物語を人間並みに理解させることは、マンガクリエイターが自身の物語を振り返り、洗練させるのに役立つ可能性があります。この目的のために、マルチモーダルなマンガ理解のための2つのベンチマークを導入します:MangaOCRはページ内のテキスト認識を対象とし、MangaVQAは視覚的質問応答を通じて文脈理解を評価する新しいベンチマークです。MangaVQAは、526の高品質な手作業で構築された質問-回答ペアで構成され、多様な物語と視覚的シナリオにわたる信頼性の高い評価を可能にします。これらのベンチマークを基に、オープンソースのLMMであるQwen2.5-VLをファインチューニングしたマンガ特化モデルMangaLMMを開発し、両タスクを同時に処理します。GPT-4oやGemini 2.5などのプロプライエタリモデルとの比較を含む広範な実験を通じて、LMMがマンガをどの程度理解しているかを評価します。私たちのベンチマークとモデルは、マンガという豊かな物語領域におけるLMMの評価と進歩のための包括的な基盤を提供します。
English
Manga, or Japanese comics, is a richly multimodal narrative form that blends
images and text in complex ways. Teaching large multimodal models (LMMs) to
understand such narratives at a human-like level could help manga creators
reflect on and refine their stories. To this end, we introduce two benchmarks
for multimodal manga understanding: MangaOCR, which targets in-page text
recognition, and MangaVQA, a novel benchmark designed to evaluate contextual
understanding through visual question answering. MangaVQA consists of 526
high-quality, manually constructed question-answer pairs, enabling reliable
evaluation across diverse narrative and visual scenarios. Building on these
benchmarks, we develop MangaLMM, a manga-specialized model finetuned from the
open-source LMM Qwen2.5-VL to jointly handle both tasks. Through extensive
experiments, including comparisons with proprietary models such as GPT-4o and
Gemini 2.5, we assess how well LMMs understand manga. Our benchmark and model
provide a comprehensive foundation for evaluating and advancing LMMs in the
richly narrative domain of manga.Summary
AI-Generated Summary