Pensar con cómics: Mejorando el razonamiento multimodal mediante la narrativa visual estructurada.

Resumen

El razonamiento de Cadena de Pensamiento ha impulsado a los grandes modelos de lenguaje a pasar de pensar con texto a pensar con imágenes y videos. Sin embargo, las diferentes modalidades aún presentan limitaciones claras: las imágenes estáticas tienen dificultades para representar la estructura temporal, mientras que los videos introducen una redundancia y un coste computacional sustanciales. En este trabajo, proponemos Pensar con Cómics, un paradigma de razonamiento visual que utiliza el cómic como un medio de alta densidad de información situado entre las imágenes y los videos. Los cómics preservan la estructura temporal, el texto integrado y la coherencia narrativa, a la vez que requieren un coste de razonamiento significativamente menor. Estudiamos sistemáticamente dos rutas de razonamiento basadas en cómics y las evaluamos en una variedad de tareas de razonamiento y de comprensión de contexto largo. Los resultados experimentales muestran que Pensar con Cómics supera a Pensar con Imágenes en tareas de razonamiento temporal y causal de múltiples pasos, manteniéndose sustancialmente más eficiente que Pensar con Video. Un análisis adicional indica que las diferentes estructuras y estilos narrativos del cómic afectan consistentemente al rendimiento en las distintas tareas, lo que sugiere que los cómics sirven como una representación visual intermedia efectiva para mejorar el razonamiento multimodal.

English

Chain-of-Thought reasoning has driven large language models to extend from thinking with text to thinking with images and videos. However, different modalities still have clear limitations: static images struggle to represent temporal structure, while videos introduce substantial redundancy and computational cost. In this work, we propose Thinking with Comics, a visual reasoning paradigm that uses comics as a high information-density medium positioned between images and videos. Comics preserve temporal structure, embedded text, and narrative coherence while requiring significantly lower reasoning cost. We systematically study two reasoning paths based on comics and evaluate them on a range of reasoning tasks and long-context understanding tasks. Experimental results show that Thinking with Comics outperforms Thinking with Images on multi-step temporal and causal reasoning tasks, while remaining substantially more efficient than Thinking with Video. Further analysis indicates that different comic narrative structures and styles consistently affect performance across tasks, suggesting that comics serve as an effective intermediate visual representation for improving multimodal reasoning.