ChatPaper.aiChatPaper

MangaVQA e MangaLMM: Um Benchmark e Modelo Especializado para Compreensão Multimodal de Mangá

MangaVQA and MangaLMM: A Benchmark and Specialized Model for Multimodal Manga Understanding

May 26, 2025
Autores: Jeonghun Baek, Kazuki Egashira, Shota Onohara, Atsuyuki Miyai, Yuki Imajuku, Hikaru Ikuta, Kiyoharu Aizawa
cs.AI

Resumo

Mangá, ou quadrinhos japoneses, é uma forma narrativa ricamente multimodal que combina imagens e texto de maneiras complexas. Ensinar modelos multimodais de grande escala (LMMs) a compreender tais narrativas em um nível semelhante ao humano poderia ajudar os criadores de mangá a refletir e aprimorar suas histórias. Para esse fim, introduzimos dois benchmarks para a compreensão multimodal de mangá: MangaOCR, que visa o reconhecimento de texto dentro das páginas, e MangaVQA, um novo benchmark projetado para avaliar a compreensão contextual por meio de respostas a perguntas visuais. MangaVQA consiste em 526 pares de perguntas e respostas de alta qualidade, construídos manualmente, permitindo uma avaliação confiável em diversos cenários narrativos e visuais. Com base nesses benchmarks, desenvolvemos o MangaLMM, um modelo especializado em mangá, ajustado a partir do LMM de código aberto Qwen2.5-VL para lidar conjuntamente com ambas as tarefas. Por meio de extensos experimentos, incluindo comparações com modelos proprietários como GPT-4o e Gemini 2.5, avaliamos quão bem os LMMs compreendem mangá. Nosso benchmark e modelo fornecem uma base abrangente para avaliar e avançar os LMMs no domínio narrativamente rico do mangá.
English
Manga, or Japanese comics, is a richly multimodal narrative form that blends images and text in complex ways. Teaching large multimodal models (LMMs) to understand such narratives at a human-like level could help manga creators reflect on and refine their stories. To this end, we introduce two benchmarks for multimodal manga understanding: MangaOCR, which targets in-page text recognition, and MangaVQA, a novel benchmark designed to evaluate contextual understanding through visual question answering. MangaVQA consists of 526 high-quality, manually constructed question-answer pairs, enabling reliable evaluation across diverse narrative and visual scenarios. Building on these benchmarks, we develop MangaLMM, a manga-specialized model finetuned from the open-source LMM Qwen2.5-VL to jointly handle both tasks. Through extensive experiments, including comparisons with proprietary models such as GPT-4o and Gemini 2.5, we assess how well LMMs understand manga. Our benchmark and model provide a comprehensive foundation for evaluating and advancing LMMs in the richly narrative domain of manga.
PDF92May 29, 2025