ChatPaper.aiChatPaper

MangaVQA и MangaLMM: Бенчмарк и специализированная модель для мультимодального понимания манги

MangaVQA and MangaLMM: A Benchmark and Specialized Model for Multimodal Manga Understanding

May 26, 2025
Авторы: Jeonghun Baek, Kazuki Egashira, Shota Onohara, Atsuyuki Miyai, Yuki Imajuku, Hikaru Ikuta, Kiyoharu Aizawa
cs.AI

Аннотация

Манга, или японские комиксы, представляет собой богатую мультимодальную форму повествования, которая сложным образом сочетает изображения и текст. Обучение крупных мультимодальных моделей (LMM) пониманию таких нарративов на уровне, близком к человеческому, может помочь создателям манги анализировать и совершенствовать свои истории. С этой целью мы представляем два бенчмарка для мультимодального понимания манги: MangaOCR, ориентированный на распознавание текста на странице, и MangaVQA — новый бенчмарк, разработанный для оценки контекстуального понимания через визуальные вопросы и ответы. MangaVQA состоит из 526 высококачественных, вручную созданных пар вопрос-ответ, что позволяет проводить надежную оценку в разнообразных нарративных и визуальных сценариях. На основе этих бенчмарков мы разрабатываем MangaLMM — специализированную модель для манги, дообученную на базе открытой мультимодальной модели Qwen2.5-VL для совместного выполнения обеих задач. В ходе обширных экспериментов, включая сравнения с проприетарными моделями, такими как GPT-4o и Gemini 2.5, мы оцениваем, насколько хорошо LMM понимают мангу. Наши бенчмарк и модель предоставляют всеобъемлющую основу для оценки и развития LMM в богатой нарративной области манги.
English
Manga, or Japanese comics, is a richly multimodal narrative form that blends images and text in complex ways. Teaching large multimodal models (LMMs) to understand such narratives at a human-like level could help manga creators reflect on and refine their stories. To this end, we introduce two benchmarks for multimodal manga understanding: MangaOCR, which targets in-page text recognition, and MangaVQA, a novel benchmark designed to evaluate contextual understanding through visual question answering. MangaVQA consists of 526 high-quality, manually constructed question-answer pairs, enabling reliable evaluation across diverse narrative and visual scenarios. Building on these benchmarks, we develop MangaLMM, a manga-specialized model finetuned from the open-source LMM Qwen2.5-VL to jointly handle both tasks. Through extensive experiments, including comparisons with proprietary models such as GPT-4o and Gemini 2.5, we assess how well LMMs understand manga. Our benchmark and model provide a comprehensive foundation for evaluating and advancing LMMs in the richly narrative domain of manga.

Summary

AI-Generated Summary

PDF62May 29, 2025