Denken met Beelden voor Multimodale Redenering: Fundamenten, Methoden en Toekomstige Grenzen
Thinking with Images for Multimodal Reasoning: Foundations, Methods, and Future Frontiers
June 30, 2025
Auteurs: Zhaochen Su, Peng Xia, Hangyu Guo, Zhenhua Liu, Yan Ma, Xiaoye Qu, Jiaqi Liu, Yanshu Li, Kaide Zeng, Zhengyuan Yang, Linjie Li, Yu Cheng, Heng Ji, Junxian He, Yi R. Fung
cs.AI
Samenvatting
Recente vooruitgang in multimodale redenering is aanzienlijk bevorderd door
tekstuele Chain-of-Thought (CoT), een paradigma waarbij modellen redenering
uitvoeren binnen taal. Deze tekstgerichte benadering behandelt visie echter als
een statische, initiële context, wat een fundamentele "semantische kloof" creëert
tussen rijke perceptuele data en discreet symbolisch denken. Menselijke cognitie
gaat vaak verder dan taal, waarbij visie wordt gebruikt als een dynamisch
mentaal schetsblok. Een vergelijkbare evolutie vindt nu plaats in AI, wat een
fundamentele paradigmaverschuiving markeert van modellen die slechts over
afbeeldingen nadenken naar modellen die daadwerkelijk met afbeeldingen kunnen
denken. Dit opkomende paradigma wordt gekenmerkt door modellen die visuele
informatie gebruiken als tussenstappen in hun denkproces, waardoor visie
transformeert van een passieve input naar een dynamische, manipuleerbare
cognitieve werkruimte. In dit overzicht schetsen we deze evolutie van
intelligentie langs een traject van toenemende cognitieve autonomie, dat zich
ontvouwt in drie belangrijke fasen: van externe toolverkenning, via
programmatische manipulatie, naar intrinsieke verbeelding. Om dit snel
evoluerende veld te structureren, levert ons overzicht vier belangrijke
bijdragen. (1) We leggen de fundamentele principes vast van het denken met
afbeeldingen-paradigma en het driefasenraamwerk. (2) We bieden een uitgebreid
overzicht van de kernmethoden die elke fase van deze routekaart kenmerken. (3) We
analyseren het kritieke landschap van evaluatiebenchmarks en transformerende
toepassingen. (4) We identificeren belangrijke uitdagingen en schetsen
veelbelovende toekomstige richtingen. Door dit gestructureerde overzicht te
bieden, streven we ernaar een duidelijke routekaart te bieden voor toekomstig
onderzoek naar krachtigere en meer mensgerichte multimodale AI.
English
Recent progress in multimodal reasoning has been significantly advanced by
textual Chain-of-Thought (CoT), a paradigm where models conduct reasoning
within language. This text-centric approach, however, treats vision as a
static, initial context, creating a fundamental "semantic gap" between rich
perceptual data and discrete symbolic thought. Human cognition often transcends
language, utilizing vision as a dynamic mental sketchpad. A similar evolution
is now unfolding in AI, marking a fundamental paradigm shift from models that
merely think about images to those that can truly think with images. This
emerging paradigm is characterized by models leveraging visual information as
intermediate steps in their thought process, transforming vision from a passive
input into a dynamic, manipulable cognitive workspace. In this survey, we chart
this evolution of intelligence along a trajectory of increasing cognitive
autonomy, which unfolds across three key stages: from external tool
exploration, through programmatic manipulation, to intrinsic imagination. To
structure this rapidly evolving field, our survey makes four key contributions.
(1) We establish the foundational principles of the think with image paradigm
and its three-stage framework. (2) We provide a comprehensive review of the
core methods that characterize each stage of this roadmap. (3) We analyze the
critical landscape of evaluation benchmarks and transformative applications.
(4) We identify significant challenges and outline promising future directions.
By providing this structured overview, we aim to offer a clear roadmap for
future research towards more powerful and human-aligned multimodal AI.