ChatPaper.aiChatPaper

Denken met Beelden voor Multimodale Redenering: Fundamenten, Methoden en Toekomstige Grenzen

Thinking with Images for Multimodal Reasoning: Foundations, Methods, and Future Frontiers

June 30, 2025
Auteurs: Zhaochen Su, Peng Xia, Hangyu Guo, Zhenhua Liu, Yan Ma, Xiaoye Qu, Jiaqi Liu, Yanshu Li, Kaide Zeng, Zhengyuan Yang, Linjie Li, Yu Cheng, Heng Ji, Junxian He, Yi R. Fung
cs.AI

Samenvatting

Recente vooruitgang in multimodale redenering is aanzienlijk bevorderd door tekstuele Chain-of-Thought (CoT), een paradigma waarbij modellen redenering uitvoeren binnen taal. Deze tekstgerichte benadering behandelt visie echter als een statische, initiële context, wat een fundamentele "semantische kloof" creëert tussen rijke perceptuele data en discreet symbolisch denken. Menselijke cognitie gaat vaak verder dan taal, waarbij visie wordt gebruikt als een dynamisch mentaal schetsblok. Een vergelijkbare evolutie vindt nu plaats in AI, wat een fundamentele paradigmaverschuiving markeert van modellen die slechts over afbeeldingen nadenken naar modellen die daadwerkelijk met afbeeldingen kunnen denken. Dit opkomende paradigma wordt gekenmerkt door modellen die visuele informatie gebruiken als tussenstappen in hun denkproces, waardoor visie transformeert van een passieve input naar een dynamische, manipuleerbare cognitieve werkruimte. In dit overzicht schetsen we deze evolutie van intelligentie langs een traject van toenemende cognitieve autonomie, dat zich ontvouwt in drie belangrijke fasen: van externe toolverkenning, via programmatische manipulatie, naar intrinsieke verbeelding. Om dit snel evoluerende veld te structureren, levert ons overzicht vier belangrijke bijdragen. (1) We leggen de fundamentele principes vast van het denken met afbeeldingen-paradigma en het driefasenraamwerk. (2) We bieden een uitgebreid overzicht van de kernmethoden die elke fase van deze routekaart kenmerken. (3) We analyseren het kritieke landschap van evaluatiebenchmarks en transformerende toepassingen. (4) We identificeren belangrijke uitdagingen en schetsen veelbelovende toekomstige richtingen. Door dit gestructureerde overzicht te bieden, streven we ernaar een duidelijke routekaart te bieden voor toekomstig onderzoek naar krachtigere en meer mensgerichte multimodale AI.
English
Recent progress in multimodal reasoning has been significantly advanced by textual Chain-of-Thought (CoT), a paradigm where models conduct reasoning within language. This text-centric approach, however, treats vision as a static, initial context, creating a fundamental "semantic gap" between rich perceptual data and discrete symbolic thought. Human cognition often transcends language, utilizing vision as a dynamic mental sketchpad. A similar evolution is now unfolding in AI, marking a fundamental paradigm shift from models that merely think about images to those that can truly think with images. This emerging paradigm is characterized by models leveraging visual information as intermediate steps in their thought process, transforming vision from a passive input into a dynamic, manipulable cognitive workspace. In this survey, we chart this evolution of intelligence along a trajectory of increasing cognitive autonomy, which unfolds across three key stages: from external tool exploration, through programmatic manipulation, to intrinsic imagination. To structure this rapidly evolving field, our survey makes four key contributions. (1) We establish the foundational principles of the think with image paradigm and its three-stage framework. (2) We provide a comprehensive review of the core methods that characterize each stage of this roadmap. (3) We analyze the critical landscape of evaluation benchmarks and transformative applications. (4) We identify significant challenges and outline promising future directions. By providing this structured overview, we aim to offer a clear roadmap for future research towards more powerful and human-aligned multimodal AI.
PDF883July 4, 2025