Pensando com Imagens para Raciocínio Multimodal: Fundamentos, Métodos e Fronteiras Futuras

Resumo

Os recentes avanços no raciocínio multimodal foram significativamente impulsionados pelo paradigma textual Chain-of-Thought (CoT), no qual os modelos realizam raciocínio dentro da linguagem. Essa abordagem centrada no texto, no entanto, trata a visão como um contexto inicial estático, criando uma "lacuna semântica" fundamental entre dados perceptivos ricos e pensamento simbólico discreto. A cognição humana frequentemente transcende a linguagem, utilizando a visão como uma prancheta mental dinâmica. Uma evolução semelhante está agora ocorrendo na IA, marcando uma mudança de paradigma fundamental de modelos que apenas pensam sobre imagens para aqueles que podem verdadeiramente pensar com imagens. Esse paradigma emergente é caracterizado por modelos que utilizam informações visuais como etapas intermediárias em seu processo de pensamento, transformando a visão de uma entrada passiva em um espaço cognitivo dinâmico e manipulável. Nesta pesquisa, mapeamos essa evolução da inteligência ao longo de uma trajetória de crescente autonomia cognitiva, que se desdobra em três estágios principais: da exploração de ferramentas externas, passando pela manipulação programática, até a imaginação intrínseca. Para estruturar esse campo em rápida evolução, nossa pesquisa faz quatro contribuições principais. (1) Estabelecemos os princípios fundamentais do paradigma de pensar com imagens e sua estrutura de três estágios. (2) Fornecemos uma revisão abrangente dos métodos centrais que caracterizam cada estágio desse roteiro. (3) Analisamos o cenário crítico de benchmarks de avaliação e aplicações transformadoras. (4) Identificamos desafios significativos e delineamos direções futuras promissoras. Ao fornecer essa visão estruturada, nosso objetivo é oferecer um roteiro claro para pesquisas futuras em direção a uma IA multimodal mais poderosa e alinhada com a cognição humana.

English

Recent progress in multimodal reasoning has been significantly advanced by textual Chain-of-Thought (CoT), a paradigm where models conduct reasoning within language. This text-centric approach, however, treats vision as a static, initial context, creating a fundamental "semantic gap" between rich perceptual data and discrete symbolic thought. Human cognition often transcends language, utilizing vision as a dynamic mental sketchpad. A similar evolution is now unfolding in AI, marking a fundamental paradigm shift from models that merely think about images to those that can truly think with images. This emerging paradigm is characterized by models leveraging visual information as intermediate steps in their thought process, transforming vision from a passive input into a dynamic, manipulable cognitive workspace. In this survey, we chart this evolution of intelligence along a trajectory of increasing cognitive autonomy, which unfolds across three key stages: from external tool exploration, through programmatic manipulation, to intrinsic imagination. To structure this rapidly evolving field, our survey makes four key contributions. (1) We establish the foundational principles of the think with image paradigm and its three-stage framework. (2) We provide a comprehensive review of the core methods that characterize each stage of this roadmap. (3) We analyze the critical landscape of evaluation benchmarks and transformative applications. (4) We identify significant challenges and outline promising future directions. By providing this structured overview, we aim to offer a clear roadmap for future research towards more powerful and human-aligned multimodal AI.

Pensando com Imagens para Raciocínio Multimodal: Fundamentos, Métodos e Fronteiras Futuras

Thinking with Images for Multimodal Reasoning: Foundations, Methods, and Future Frontiers

Resumo

Support