Pensare con i Fumetti: Potenziare il Ragionamento Multimodale attraverso lo Storytelling Visivo Strutturato

Abstract

Il ragionamento a catena di pensieri ha spinto i grandi modelli linguistici ad evolvere dal pensare con il testo al pensare con immagini e video. Tuttavia, le diverse modalità presentano ancora limiti evidenti: le immagini statiche faticano a rappresentare la struttura temporale, mentre i video introducono una notevole ridondanza e costo computazionale. In questo lavoro proponiamo Pensare con i Fumetti, un paradigma di ragionamento visivo che utilizza i fumetti come medium ad alta densità informativa posizionato tra immagini e video. I fumetti preservano la struttura temporale, il testo incorporato e la coerenza narrativa, richiedendo al contempo un costo di ragionamento significativamente inferiore. Studiamo sistematicamente due percorsi di ragionamento basati sui fumetti e li valutiamo su una serie di compiti di ragionamento e di comprensione contestuale estesa. I risultati sperimentali dimostrano che Pensare con i Fumetti supera il Pensare con le Immagini nei compiti di ragionamento temporale e causale multi-step, mantenendo al contempo un'efficienza sostanzialmente superiore al Pensare con i Video. Ulteriori analisi indicano che diverse strutture narrative e stili dei fumetti influenzano costantemente le prestazioni across i compiti, suggerendo che i fumetti fungano da rappresentazione visiva intermedia efficace per migliorare il ragionamento multimodale.

English

Chain-of-Thought reasoning has driven large language models to extend from thinking with text to thinking with images and videos. However, different modalities still have clear limitations: static images struggle to represent temporal structure, while videos introduce substantial redundancy and computational cost. In this work, we propose Thinking with Comics, a visual reasoning paradigm that uses comics as a high information-density medium positioned between images and videos. Comics preserve temporal structure, embedded text, and narrative coherence while requiring significantly lower reasoning cost. We systematically study two reasoning paths based on comics and evaluate them on a range of reasoning tasks and long-context understanding tasks. Experimental results show that Thinking with Comics outperforms Thinking with Images on multi-step temporal and causal reasoning tasks, while remaining substantially more efficient than Thinking with Video. Further analysis indicates that different comic narrative structures and styles consistently affect performance across tasks, suggesting that comics serve as an effective intermediate visual representation for improving multimodal reasoning.

Pensare con i Fumetti: Potenziare il Ragionamento Multimodale attraverso lo Storytelling Visivo Strutturato

Thinking with Comics: Enhancing Multimodal Reasoning through Structured Visual Storytelling

Abstract

Support