ChatPaper.aiChatPaper

Pensando com Quadrinhos: Aprimorando o Raciocínio Multimodal por meio da Narrativa Visual Estruturada

Thinking with Comics: Enhancing Multimodal Reasoning through Structured Visual Storytelling

February 2, 2026
Autores: Andong Chen, Wenxin Zhu, Qiuyu Ding, Yuchen Song, Muyun Yang, Tiejun Zhao
cs.AI

Resumo

O raciocínio em cadeia de pensamento levou os grandes modelos de linguagem a evoluir do pensamento baseado em texto para o pensamento com imagens e vídeos. No entanto, diferentes modalidades ainda apresentam limitações claras: imagens estáticas têm dificuldade em representar estrutura temporal, enquanto vídeos introduzem redundância substancial e custo computacional elevado. Neste trabalho, propomos Pensar com Histórias em Quadrinhos, um paradigma de raciocínio visual que utiliza quadrinhos como meio de alta densidade informacional posicionado entre imagens e vídeos. Os quadrinhos preservam estrutura temporal, texto incorporado e coerência narrativa, exigindo um custo de raciocínio significativamente menor. Estudamos sistematicamente dois caminhos de raciocínio baseados em quadrinhos e os avaliamos em uma série de tarefas de raciocínio e tarefas de compreensão de contexto longo. Resultados experimentais demonstram que Pensar com Quadrinhos supera o Pensar com Imagens em tarefas de raciocínio temporal e causal de múltiplas etapas, mantendo-se substancialmente mais eficiente que o Pensar com Vídeo. Análises adicionais indicam que diferentes estruturas e estilos narrativos dos quadrinhos afetam consistentemente o desempenho entre tarefas, sugerindo que os quadrinhos funcionam como uma representação visual intermediária eficaz para aprimorar o raciocínio multimodal.
English
Chain-of-Thought reasoning has driven large language models to extend from thinking with text to thinking with images and videos. However, different modalities still have clear limitations: static images struggle to represent temporal structure, while videos introduce substantial redundancy and computational cost. In this work, we propose Thinking with Comics, a visual reasoning paradigm that uses comics as a high information-density medium positioned between images and videos. Comics preserve temporal structure, embedded text, and narrative coherence while requiring significantly lower reasoning cost. We systematically study two reasoning paths based on comics and evaluate them on a range of reasoning tasks and long-context understanding tasks. Experimental results show that Thinking with Comics outperforms Thinking with Images on multi-step temporal and causal reasoning tasks, while remaining substantially more efficient than Thinking with Video. Further analysis indicates that different comic narrative structures and styles consistently affect performance across tasks, suggesting that comics serve as an effective intermediate visual representation for improving multimodal reasoning.
PDF364March 12, 2026