ChatPaper.aiChatPaper

MangaVQA와 MangaLMM: 멀티모달 만화 이해를 위한 벤치마크 및 전용 모델

MangaVQA and MangaLMM: A Benchmark and Specialized Model for Multimodal Manga Understanding

May 26, 2025
저자: Jeonghun Baek, Kazuki Egashira, Shota Onohara, Atsuyuki Miyai, Yuki Imajuku, Hikaru Ikuta, Kiyoharu Aizawa
cs.AI

초록

만화, 또는 일본식 코믹스는 이미지와 텍스트를 복잡하게 결합한 풍부한 멀티모달 서사 형식입니다. 대규모 멀티모달 모델(LMM)이 이러한 서사를 인간 수준으로 이해하도록 가르치는 것은 만화 창작자들이 자신의 스토리를 반영하고 개선하는 데 도움을 줄 수 있습니다. 이를 위해 우리는 멀티모달 만화 이해를 위한 두 가지 벤치마크를 소개합니다: 페이지 내 텍스트 인식을 목표로 하는 MangaOCR와 시각적 질문 응답을 통해 문맥적 이해를 평가하도록 설계된 새로운 벤치마크인 MangaVQA입니다. MangaVQA는 526개의 고품질, 수작업으로 구성된 질문-답변 쌍으로 이루어져 있으며, 다양한 서사적 및 시각적 시나리오에서 신뢰할 수 있는 평가를 가능하게 합니다. 이러한 벤치마크를 기반으로, 우리는 오픈소스 LMM인 Qwen2.5-VL에서 미세 조정된 만화 전용 모델인 MangaLMM을 개발하여 두 작업을 동시에 처리합니다. GPT-4o 및 Gemini 2.5와 같은 독점 모델과의 비교를 포함한 광범위한 실험을 통해 LMM이 만화를 얼마나 잘 이해하는지 평가합니다. 우리의 벤치마크와 모델은 만화라는 풍부한 서사 영역에서 LMM을 평가하고 발전시키기 위한 포괄적인 기반을 제공합니다.
English
Manga, or Japanese comics, is a richly multimodal narrative form that blends images and text in complex ways. Teaching large multimodal models (LMMs) to understand such narratives at a human-like level could help manga creators reflect on and refine their stories. To this end, we introduce two benchmarks for multimodal manga understanding: MangaOCR, which targets in-page text recognition, and MangaVQA, a novel benchmark designed to evaluate contextual understanding through visual question answering. MangaVQA consists of 526 high-quality, manually constructed question-answer pairs, enabling reliable evaluation across diverse narrative and visual scenarios. Building on these benchmarks, we develop MangaLMM, a manga-specialized model finetuned from the open-source LMM Qwen2.5-VL to jointly handle both tasks. Through extensive experiments, including comparisons with proprietary models such as GPT-4o and Gemini 2.5, we assess how well LMMs understand manga. Our benchmark and model provide a comprehensive foundation for evaluating and advancing LMMs in the richly narrative domain of manga.

Summary

AI-Generated Summary

PDF62May 29, 2025