ChatPaper.aiChatPaper

MangaVQA y MangaLMM: Un punto de referencia y un modelo especializado para la comprensión multimodal de manga

MangaVQA and MangaLMM: A Benchmark and Specialized Model for Multimodal Manga Understanding

May 26, 2025
Autores: Jeonghun Baek, Kazuki Egashira, Shota Onohara, Atsuyuki Miyai, Yuki Imajuku, Hikaru Ikuta, Kiyoharu Aizawa
cs.AI

Resumen

El manga, o cómic japonés, es una forma narrativa multimodal que combina imágenes y texto de maneras complejas. Enseñar a los modelos multimodales grandes (LMMs, por sus siglas en inglés) a comprender estas narrativas a un nivel similar al humano podría ayudar a los creadores de manga a reflexionar y perfeccionar sus historias. Con este fin, presentamos dos puntos de referencia para la comprensión multimodal del manga: MangaOCR, que se enfoca en el reconocimiento de texto dentro de las páginas, y MangaVQA, un nuevo punto de referencia diseñado para evaluar la comprensión contextual mediante preguntas y respuestas visuales. MangaVQA consta de 526 pares de preguntas y respuestas de alta calidad, construidos manualmente, lo que permite una evaluación confiable en diversos escenarios narrativos y visuales. Basándonos en estos puntos de referencia, desarrollamos MangaLMM, un modelo especializado en manga ajustado a partir del LMM de código abierto Qwen2.5-VL para manejar ambas tareas de manera conjunta. A través de experimentos exhaustivos, incluyendo comparaciones con modelos propietarios como GPT-4o y Gemini 2.5, evaluamos qué tan bien los LMMs comprenden el manga. Nuestro punto de referencia y modelo proporcionan una base integral para evaluar y avanzar los LMMs en el rico dominio narrativo del manga.
English
Manga, or Japanese comics, is a richly multimodal narrative form that blends images and text in complex ways. Teaching large multimodal models (LMMs) to understand such narratives at a human-like level could help manga creators reflect on and refine their stories. To this end, we introduce two benchmarks for multimodal manga understanding: MangaOCR, which targets in-page text recognition, and MangaVQA, a novel benchmark designed to evaluate contextual understanding through visual question answering. MangaVQA consists of 526 high-quality, manually constructed question-answer pairs, enabling reliable evaluation across diverse narrative and visual scenarios. Building on these benchmarks, we develop MangaLMM, a manga-specialized model finetuned from the open-source LMM Qwen2.5-VL to jointly handle both tasks. Through extensive experiments, including comparisons with proprietary models such as GPT-4o and Gemini 2.5, we assess how well LMMs understand manga. Our benchmark and model provide a comprehensive foundation for evaluating and advancing LMMs in the richly narrative domain of manga.

Summary

AI-Generated Summary

PDF62May 29, 2025