MangaVQA et MangaLMM : Un Benchmark et un Modèle Spécialisé pour la Compréhension Multimodale des Mangas
MangaVQA and MangaLMM: A Benchmark and Specialized Model for Multimodal Manga Understanding
May 26, 2025
Auteurs: Jeonghun Baek, Kazuki Egashira, Shota Onohara, Atsuyuki Miyai, Yuki Imajuku, Hikaru Ikuta, Kiyoharu Aizawa
cs.AI
Résumé
Le manga, ou bande dessinée japonaise, est une forme narrative richement multimodale qui combine images et texte de manière complexe. Enseigner aux grands modèles multimodaux (LMMs) à comprendre ces récits à un niveau proche de celui des humains pourrait aider les créateurs de manga à réfléchir et à affiner leurs histoires. Dans cette optique, nous introduisons deux benchmarks pour la compréhension multimodale du manga : MangaOCR, qui cible la reconnaissance de texte dans les pages, et MangaVQA, un nouveau benchmark conçu pour évaluer la compréhension contextuelle à travers des questions-réponses visuelles. MangaVQA se compose de 526 paires de questions-réponses de haute qualité, construites manuellement, permettant une évaluation fiable dans divers scénarios narratifs et visuels. Sur la base de ces benchmarks, nous développons MangaLMM, un modèle spécialisé dans le manga, affiné à partir du LMM open-source Qwen2.5-VL pour gérer conjointement les deux tâches. À travers des expériences approfondies, incluant des comparaisons avec des modèles propriétaires tels que GPT-4o et Gemini 2.5, nous évaluons dans quelle mesure les LMMs comprennent le manga. Notre benchmark et notre modèle fournissent une base complète pour évaluer et faire progresser les LMMs dans le domaine richement narratif du manga.
English
Manga, or Japanese comics, is a richly multimodal narrative form that blends
images and text in complex ways. Teaching large multimodal models (LMMs) to
understand such narratives at a human-like level could help manga creators
reflect on and refine their stories. To this end, we introduce two benchmarks
for multimodal manga understanding: MangaOCR, which targets in-page text
recognition, and MangaVQA, a novel benchmark designed to evaluate contextual
understanding through visual question answering. MangaVQA consists of 526
high-quality, manually constructed question-answer pairs, enabling reliable
evaluation across diverse narrative and visual scenarios. Building on these
benchmarks, we develop MangaLMM, a manga-specialized model finetuned from the
open-source LMM Qwen2.5-VL to jointly handle both tasks. Through extensive
experiments, including comparisons with proprietary models such as GPT-4o and
Gemini 2.5, we assess how well LMMs understand manga. Our benchmark and model
provide a comprehensive foundation for evaluating and advancing LMMs in the
richly narrative domain of manga.Summary
AI-Generated Summary