만화로 생각하기: 구조화된 시각적 스토리텔링을 통한 다중모드 추론 향상
Thinking with Comics: Enhancing Multimodal Reasoning through Structured Visual Storytelling
February 2, 2026
저자: Andong Chen, Wenxin Zhu, Qiuyu Ding, Yuchen Song, Muyun Yang, Tiejun Zhao
cs.AI
초록
체인 오브 씽킹(Chain-of-Thought) 추론 방식의 발전으로 대규모 언어 모델은 텍스트를 통한 사고에서 이미지와 비디오를 활용한 사고로 영역을 확장해 왔습니다. 그러나 각 양식마다 뚜렷한 한계가 존재합니다: 정적 이미지는 시간적 구조를 표현하는 데 어려움이 있고, 비디오는 상당한 중복성과 계산 비용을 수반합니다. 본 연구에서는 이미지와 비디오의 중간 지점에 위치한 높은 정보 밀도를 가진 매체인 만화를 활용한 시각적 추론 패러다임인 'Thinking with Comics'를 제안합니다. 만화는 시간적 구조, 삽입된 텍스트, 이야기의 일관성을 유지하면서도 상당히 낮은 추론 비용만을 요구합니다. 우리는 만화 기반의 두 가지 추론 경로를 체계적으로 연구하고 다양한 추론 과제 및 장문맥 이해 과제에서 이를 평가합니다. 실험 결과, 'Thinking with Comics'는 다단계 시간적 및 인과적 추론 과제에서 'Thinking with Images'보다 우수한 성능을 보였으며, 'Thinking with Video'보다 훨씬 더 효율적인 것으로 나타났습니다. 추가 분석에 따르면, 서로 다른 만화 서사 구조와 스타일이 다양한 과제에서 일관되게 성능에 영향을 미치는 것으로 나타나, 만화가 다중모달 추론 성능 향상을 위한 효과적인 중간 시각적 표현으로 기능함을 시사합니다.
English
Chain-of-Thought reasoning has driven large language models to extend from thinking with text to thinking with images and videos. However, different modalities still have clear limitations: static images struggle to represent temporal structure, while videos introduce substantial redundancy and computational cost. In this work, we propose Thinking with Comics, a visual reasoning paradigm that uses comics as a high information-density medium positioned between images and videos. Comics preserve temporal structure, embedded text, and narrative coherence while requiring significantly lower reasoning cost. We systematically study two reasoning paths based on comics and evaluate them on a range of reasoning tasks and long-context understanding tasks. Experimental results show that Thinking with Comics outperforms Thinking with Images on multi-step temporal and causal reasoning tasks, while remaining substantially more efficient than Thinking with Video. Further analysis indicates that different comic narrative structures and styles consistently affect performance across tasks, suggesting that comics serve as an effective intermediate visual representation for improving multimodal reasoning.