漫画的思考:構造化された視覚的物語によるマルチモーダル推論の強化
Thinking with Comics: Enhancing Multimodal Reasoning through Structured Visual Storytelling
February 2, 2026
著者: Andong Chen, Wenxin Zhu, Qiuyu Ding, Yuchen Song, Muyun Yang, Tiejun Zhao
cs.AI
要旨
思考連鎖推論の発展により、大規模言語モデルはテキストによる思考から、画像や動画を用いた思考へと拡張されてきた。しかし、異なるモダリティには依然として明確な限界がある:静止画像は時間的構造の表現に難があり、動画は冗長性と計算コストの大幅な増加をもたらす。本研究では、画像と動画の中間に位置する高情報密度メディアとして漫画を活用した視覚的推論パラダイム「漫画を用いた思考」を提案する。漫画は時間的構造、埋め込まれたテキスト、物語の一貫性を保持しながら、推論コストを大幅に低減する。我々は漫画に基づく二つの推論経路を体系的に検討し、様々な推論タスク及び長文脈理解タスクで評価を実施した。実験結果から、漫画を用いた思考は多段階の時間的・因果的推論タスクにおいて画像を用いた思考を上回り、かつ動画を用いた思考よりも大幅に効率的であることが示された。さらに分析により、異なる漫画の物語構造や作画スタイルがタスク横断的に性能に影響を与えることが明らかとなり、漫画がマルチモーダル推論を改善する効果的な中間視覚表現として機能することが示唆された。
English
Chain-of-Thought reasoning has driven large language models to extend from thinking with text to thinking with images and videos. However, different modalities still have clear limitations: static images struggle to represent temporal structure, while videos introduce substantial redundancy and computational cost. In this work, we propose Thinking with Comics, a visual reasoning paradigm that uses comics as a high information-density medium positioned between images and videos. Comics preserve temporal structure, embedded text, and narrative coherence while requiring significantly lower reasoning cost. We systematically study two reasoning paths based on comics and evaluate them on a range of reasoning tasks and long-context understanding tasks. Experimental results show that Thinking with Comics outperforms Thinking with Images on multi-step temporal and causal reasoning tasks, while remaining substantially more efficient than Thinking with Video. Further analysis indicates that different comic narrative structures and styles consistently affect performance across tasks, suggesting that comics serve as an effective intermediate visual representation for improving multimodal reasoning.