Penser avec les bandes dessinées : Renforcer le raisonnement multimodal par la narration visuelle structurée
Thinking with Comics: Enhancing Multimodal Reasoning through Structured Visual Storytelling
February 2, 2026
papers.authors: Andong Chen, Wenxin Zhu, Qiuyu Ding, Yuchen Song, Muyun Yang, Tiejun Zhao
cs.AI
papers.abstract
Le raisonnement en chaîne de pensée a permis aux grands modèles linguistiques d'évoluer d'une réflexion basée sur le texte vers une réflexion intégrant images et vidéos. Cependant, les différentes modalités présentent encore des limites évidentes : les images statiques peinent à représenter la structure temporelle, tandis que les vidéos introduisent une redondance substantielle et un coût computationnel élevé. Dans ce travail, nous proposons la Réflexion par Bandes Dessinées, un paradigme de raisonnement visuel qui utilise la bande dessinée comme médium à haute densité informationnelle, positionné entre l'image et la vidéo. Les bandes dessinées préservent la structure temporelle, intègrent du texte et assurent une cohérence narrative tout en nécessitant un coût de raisonnement significativement moindre. Nous étudions systématiquement deux voies de raisonnement basées sur les bandes dessinées et les évaluons sur une série de tâches de raisonnement et de compréhension de contexte long. Les résultats expérimentaux montrent que la Réflexion par Bandes Dessinées surpasse la Réflexion par Images sur les tâches de raisonnement temporel et causal multi-étapes, tout en restant nettement plus efficace que la Réflexion par Vidéo. Des analyses complémentaires indiquent que les différentes structures narratives et styles de bandes dessinées influencent constamment les performances across les tâches, suggérant que la bande dessinée constitue une représentation visuelle intermédiaire efficace pour améliorer le raisonnement multimodal.
English
Chain-of-Thought reasoning has driven large language models to extend from thinking with text to thinking with images and videos. However, different modalities still have clear limitations: static images struggle to represent temporal structure, while videos introduce substantial redundancy and computational cost. In this work, we propose Thinking with Comics, a visual reasoning paradigm that uses comics as a high information-density medium positioned between images and videos. Comics preserve temporal structure, embedded text, and narrative coherence while requiring significantly lower reasoning cost. We systematically study two reasoning paths based on comics and evaluate them on a range of reasoning tasks and long-context understanding tasks. Experimental results show that Thinking with Comics outperforms Thinking with Images on multi-step temporal and causal reasoning tasks, while remaining substantially more efficient than Thinking with Video. Further analysis indicates that different comic narrative structures and styles consistently affect performance across tasks, suggesting that comics serve as an effective intermediate visual representation for improving multimodal reasoning.