MangaVQA и MangaLMM: Бенчмарк и специализированная модель для мультимодального понимания манги

Аннотация

Манга, или японские комиксы, представляет собой богатую мультимодальную форму повествования, которая сложным образом сочетает изображения и текст. Обучение крупных мультимодальных моделей (LMM) пониманию таких нарративов на уровне, близком к человеческому, может помочь создателям манги анализировать и совершенствовать свои истории. С этой целью мы представляем два бенчмарка для мультимодального понимания манги: MangaOCR, ориентированный на распознавание текста на странице, и MangaVQA — новый бенчмарк, разработанный для оценки контекстуального понимания через визуальные вопросы и ответы. MangaVQA состоит из 526 высококачественных, вручную созданных пар вопрос-ответ, что позволяет проводить надежную оценку в разнообразных нарративных и визуальных сценариях. На основе этих бенчмарков мы разрабатываем MangaLMM — специализированную модель для манги, дообученную на базе открытой мультимодальной модели Qwen2.5-VL для совместного выполнения обеих задач. В ходе обширных экспериментов, включая сравнения с проприетарными моделями, такими как GPT-4o и Gemini 2.5, мы оцениваем, насколько хорошо LMM понимают мангу. Наши бенчмарк и модель предоставляют всеобъемлющую основу для оценки и развития LMM в богатой нарративной области манги.

English

Manga, or Japanese comics, is a richly multimodal narrative form that blends images and text in complex ways. Teaching large multimodal models (LMMs) to understand such narratives at a human-like level could help manga creators reflect on and refine their stories. To this end, we introduce two benchmarks for multimodal manga understanding: MangaOCR, which targets in-page text recognition, and MangaVQA, a novel benchmark designed to evaluate contextual understanding through visual question answering. MangaVQA consists of 526 high-quality, manually constructed question-answer pairs, enabling reliable evaluation across diverse narrative and visual scenarios. Building on these benchmarks, we develop MangaLMM, a manga-specialized model finetuned from the open-source LMM Qwen2.5-VL to jointly handle both tasks. Through extensive experiments, including comparisons with proprietary models such as GPT-4o and Gemini 2.5, we assess how well LMMs understand manga. Our benchmark and model provide a comprehensive foundation for evaluating and advancing LMMs in the richly narrative domain of manga.

MangaVQA и MangaLMM: Бенчмарк и специализированная модель для мультимодального понимания манги

MangaVQA and MangaLMM: A Benchmark and Specialized Model for Multimodal Manga Understanding

Аннотация

Support