Pensando com Imagens para Raciocínio Multimodal: Fundamentos, Métodos e Fronteiras Futuras
Thinking with Images for Multimodal Reasoning: Foundations, Methods, and Future Frontiers
June 30, 2025
Autores: Zhaochen Su, Peng Xia, Hangyu Guo, Zhenhua Liu, Yan Ma, Xiaoye Qu, Jiaqi Liu, Yanshu Li, Kaide Zeng, Zhengyuan Yang, Linjie Li, Yu Cheng, Heng Ji, Junxian He, Yi R. Fung
cs.AI
Resumo
Os recentes avanços no raciocínio multimodal foram significativamente impulsionados pelo paradigma textual Chain-of-Thought (CoT), no qual os modelos realizam raciocínio dentro da linguagem. Essa abordagem centrada no texto, no entanto, trata a visão como um contexto inicial estático, criando uma "lacuna semântica" fundamental entre dados perceptivos ricos e pensamento simbólico discreto. A cognição humana frequentemente transcende a linguagem, utilizando a visão como uma prancheta mental dinâmica. Uma evolução semelhante está agora ocorrendo na IA, marcando uma mudança de paradigma fundamental de modelos que apenas pensam sobre imagens para aqueles que podem verdadeiramente pensar com imagens. Esse paradigma emergente é caracterizado por modelos que utilizam informações visuais como etapas intermediárias em seu processo de pensamento, transformando a visão de uma entrada passiva em um espaço cognitivo dinâmico e manipulável. Nesta pesquisa, mapeamos essa evolução da inteligência ao longo de uma trajetória de crescente autonomia cognitiva, que se desdobra em três estágios principais: da exploração de ferramentas externas, passando pela manipulação programática, até a imaginação intrínseca. Para estruturar esse campo em rápida evolução, nossa pesquisa faz quatro contribuições principais. (1) Estabelecemos os princípios fundamentais do paradigma de pensar com imagens e sua estrutura de três estágios. (2) Fornecemos uma revisão abrangente dos métodos centrais que caracterizam cada estágio desse roteiro. (3) Analisamos o cenário crítico de benchmarks de avaliação e aplicações transformadoras. (4) Identificamos desafios significativos e delineamos direções futuras promissoras. Ao fornecer essa visão estruturada, nosso objetivo é oferecer um roteiro claro para pesquisas futuras em direção a uma IA multimodal mais poderosa e alinhada com a cognição humana.
English
Recent progress in multimodal reasoning has been significantly advanced by
textual Chain-of-Thought (CoT), a paradigm where models conduct reasoning
within language. This text-centric approach, however, treats vision as a
static, initial context, creating a fundamental "semantic gap" between rich
perceptual data and discrete symbolic thought. Human cognition often transcends
language, utilizing vision as a dynamic mental sketchpad. A similar evolution
is now unfolding in AI, marking a fundamental paradigm shift from models that
merely think about images to those that can truly think with images. This
emerging paradigm is characterized by models leveraging visual information as
intermediate steps in their thought process, transforming vision from a passive
input into a dynamic, manipulable cognitive workspace. In this survey, we chart
this evolution of intelligence along a trajectory of increasing cognitive
autonomy, which unfolds across three key stages: from external tool
exploration, through programmatic manipulation, to intrinsic imagination. To
structure this rapidly evolving field, our survey makes four key contributions.
(1) We establish the foundational principles of the think with image paradigm
and its three-stage framework. (2) We provide a comprehensive review of the
core methods that characterize each stage of this roadmap. (3) We analyze the
critical landscape of evaluation benchmarks and transformative applications.
(4) We identify significant challenges and outline promising future directions.
By providing this structured overview, we aim to offer a clear roadmap for
future research towards more powerful and human-aligned multimodal AI.