ChatPaper.aiChatPaper

MangaVQA e MangaLMM: Un Benchmark e un Modello Specializzato per la Comprensione Multimodale dei Manga

MangaVQA and MangaLMM: A Benchmark and Specialized Model for Multimodal Manga Understanding

May 26, 2025
Autori: Jeonghun Baek, Kazuki Egashira, Shota Onohara, Atsuyuki Miyai, Yuki Imajuku, Hikaru Ikuta, Kiyoharu Aizawa
cs.AI

Abstract

Il manga, o fumetto giapponese, è una forma narrativa fortemente multimodale che combina immagini e testo in modi complessi. Insegnare ai grandi modelli multimodali (LMM) a comprendere tali narrazioni a un livello simile a quello umano potrebbe aiutare i creatori di manga a riflettere e affinare le loro storie. A tal fine, introduciamo due benchmark per la comprensione multimodale dei manga: MangaOCR, che si concentra sul riconoscimento del testo all'interno delle pagine, e MangaVQA, un nuovo benchmark progettato per valutare la comprensione contestuale attraverso il visual question answering. MangaVQA è composto da 526 coppie domanda-risposta di alta qualità, costruite manualmente, che consentono una valutazione affidabile in diversi scenari narrativi e visivi. Basandoci su questi benchmark, sviluppiamo MangaLMM, un modello specializzato per i manga, ottimizzato a partire dal modello open-source LMM Qwen2.5-VL per gestire entrambe le attività. Attraverso esperimenti estensivi, inclusi confronti con modelli proprietari come GPT-4o e Gemini 2.5, valutiamo quanto bene i LMM comprendono i manga. Il nostro benchmark e il modello forniscono una base completa per valutare e avanzare i LMM nel ricco dominio narrativo dei manga.
English
Manga, or Japanese comics, is a richly multimodal narrative form that blends images and text in complex ways. Teaching large multimodal models (LMMs) to understand such narratives at a human-like level could help manga creators reflect on and refine their stories. To this end, we introduce two benchmarks for multimodal manga understanding: MangaOCR, which targets in-page text recognition, and MangaVQA, a novel benchmark designed to evaluate contextual understanding through visual question answering. MangaVQA consists of 526 high-quality, manually constructed question-answer pairs, enabling reliable evaluation across diverse narrative and visual scenarios. Building on these benchmarks, we develop MangaLMM, a manga-specialized model finetuned from the open-source LMM Qwen2.5-VL to jointly handle both tasks. Through extensive experiments, including comparisons with proprietary models such as GPT-4o and Gemini 2.5, we assess how well LMMs understand manga. Our benchmark and model provide a comprehensive foundation for evaluating and advancing LMMs in the richly narrative domain of manga.
PDF62May 29, 2025