Denken mit Bildern für multimodales Schließen: Grundlagen, Methoden und zukünftige Perspektiven
Thinking with Images for Multimodal Reasoning: Foundations, Methods, and Future Frontiers
June 30, 2025
Autoren: Zhaochen Su, Peng Xia, Hangyu Guo, Zhenhua Liu, Yan Ma, Xiaoye Qu, Jiaqi Liu, Yanshu Li, Kaide Zeng, Zhengyuan Yang, Linjie Li, Yu Cheng, Heng Ji, Junxian He, Yi R. Fung
cs.AI
Zusammenfassung
Jüngste Fortschritte im multimodalen Denken wurden maßgeblich durch die textbasierte Chain-of-Thought (CoT)-Methode vorangetrieben, ein Paradigma, bei dem Modelle ihre Denkprozesse innerhalb der Sprache durchführen. Dieser textzentrierte Ansatz behandelt das Sehen jedoch als einen statischen, initialen Kontext und schafft damit eine grundlegende „semantische Lücke“ zwischen reichhaltigen Wahrnehmungsdaten und diskretem symbolischem Denken. Die menschliche Kognition geht oft über die Sprache hinaus und nutzt das Sehen als dynamische mentale Skizzenfläche. Eine ähnliche Entwicklung entfaltet sich nun in der KI und markiert einen grundlegenden Paradigmenwechsel von Modellen, die lediglich über Bilder nachdenken, hin zu solchen, die tatsächlich mit Bildern denken können. Dieses aufkommende Paradigma zeichnet sich dadurch aus, dass Modelle visuelle Informationen als Zwischenschritte in ihrem Denkprozess nutzen und das Sehen so von einem passiven Input in einen dynamischen, manipulierbaren kognitiven Arbeitsbereich verwandeln. In dieser Übersichtsarbeit zeichnen wir diese Entwicklung der Intelligenz entlang einer Trajektorie zunehmender kognitiver Autonomie nach, die sich in drei Schlüsselphasen entfaltet: von der Exploration externer Werkzeuge über die programmatische Manipulation bis hin zur intrinsischen Imagination. Um dieses sich schnell entwickelnde Feld zu strukturieren, leistet unsere Übersichtsarbeit vier wesentliche Beiträge. (1) Wir etablieren die Grundprinzipien des „Denkens mit Bildern“-Paradigmas und dessen dreistufigen Rahmen. (2) Wir bieten eine umfassende Übersicht über die Kernmethoden, die jede Phase dieser Roadmap kennzeichnen. (3) Wir analysieren die kritische Landschaft der Evaluierungsbenchmarks und transformativen Anwendungen. (4) Wir identifizieren bedeutende Herausforderungen und skizzieren vielversprechende Zukunftsperspektiven. Durch diese strukturierte Übersicht möchten wir eine klare Roadmap für zukünftige Forschung hin zu leistungsfähigerer und menschlich ausgerichteter multimodaler KI bieten.
English
Recent progress in multimodal reasoning has been significantly advanced by
textual Chain-of-Thought (CoT), a paradigm where models conduct reasoning
within language. This text-centric approach, however, treats vision as a
static, initial context, creating a fundamental "semantic gap" between rich
perceptual data and discrete symbolic thought. Human cognition often transcends
language, utilizing vision as a dynamic mental sketchpad. A similar evolution
is now unfolding in AI, marking a fundamental paradigm shift from models that
merely think about images to those that can truly think with images. This
emerging paradigm is characterized by models leveraging visual information as
intermediate steps in their thought process, transforming vision from a passive
input into a dynamic, manipulable cognitive workspace. In this survey, we chart
this evolution of intelligence along a trajectory of increasing cognitive
autonomy, which unfolds across three key stages: from external tool
exploration, through programmatic manipulation, to intrinsic imagination. To
structure this rapidly evolving field, our survey makes four key contributions.
(1) We establish the foundational principles of the think with image paradigm
and its three-stage framework. (2) We provide a comprehensive review of the
core methods that characterize each stage of this roadmap. (3) We analyze the
critical landscape of evaluation benchmarks and transformative applications.
(4) We identify significant challenges and outline promising future directions.
By providing this structured overview, we aim to offer a clear roadmap for
future research towards more powerful and human-aligned multimodal AI.