Мышление с использованием изображений для мультимодального рассуждения: основы, методы и будущие направления
Thinking with Images for Multimodal Reasoning: Foundations, Methods, and Future Frontiers
June 30, 2025
Авторы: Zhaochen Su, Peng Xia, Hangyu Guo, Zhenhua Liu, Yan Ma, Xiaoye Qu, Jiaqi Liu, Yanshu Li, Kaide Zeng, Zhengyuan Yang, Linjie Li, Yu Cheng, Heng Ji, Junxian He, Yi R. Fung
cs.AI
Аннотация
Недавние достижения в области мультимодального рассуждения значительно продвинулись благодаря текстовому подходу "Цепочка мыслей" (Chain-of-Thought, CoT), где модели осуществляют рассуждения в рамках языка. Однако этот текстоцентричный подход рассматривает зрение как статичный, начальный контекст, создавая фундаментальный "семантический разрыв" между богатыми перцептивными данными и дискретным символическим мышлением. Человеческое познание часто выходит за пределы языка, используя зрение как динамический ментальный блокнот. Подобная эволюция теперь разворачивается в области ИИ, знаменуя фундаментальный сдвиг парадигмы от моделей, которые просто думают о изображениях, к тем, которые могут действительно думать с помощью изображений. Эта новая парадигма характеризуется моделями, использующими визуальную информацию в качестве промежуточных шагов в процессе мышления, превращая зрение из пассивного входа в динамическое, управляемое когнитивное пространство. В этом обзоре мы прослеживаем эту эволюцию интеллекта по траектории возрастающей когнитивной автономии, которая разворачивается в три ключевых этапа: от исследования внешних инструментов, через программное управление, к внутреннему воображению. Чтобы структурировать эту быстро развивающуюся область, наш обзор вносит четыре ключевых вклада. (1) Мы устанавливаем основные принципы парадигмы "мышления с помощью изображений" и её трёхэтапной структуры. (2) Мы предоставляем всесторонний обзор основных методов, характеризующих каждый этап этой дорожной карты. (3) Мы анализируем ключевые аспекты оценочных тестов и трансформационных приложений. (4) Мы определяем значительные вызовы и намечаем перспективные направления для будущих исследований. Предоставляя этот структурированный обзор, мы стремимся предложить чёткую дорожную карту для будущих исследований в направлении более мощного и человеко-ориентированного мультимодального ИИ.
English
Recent progress in multimodal reasoning has been significantly advanced by
textual Chain-of-Thought (CoT), a paradigm where models conduct reasoning
within language. This text-centric approach, however, treats vision as a
static, initial context, creating a fundamental "semantic gap" between rich
perceptual data and discrete symbolic thought. Human cognition often transcends
language, utilizing vision as a dynamic mental sketchpad. A similar evolution
is now unfolding in AI, marking a fundamental paradigm shift from models that
merely think about images to those that can truly think with images. This
emerging paradigm is characterized by models leveraging visual information as
intermediate steps in their thought process, transforming vision from a passive
input into a dynamic, manipulable cognitive workspace. In this survey, we chart
this evolution of intelligence along a trajectory of increasing cognitive
autonomy, which unfolds across three key stages: from external tool
exploration, through programmatic manipulation, to intrinsic imagination. To
structure this rapidly evolving field, our survey makes four key contributions.
(1) We establish the foundational principles of the think with image paradigm
and its three-stage framework. (2) We provide a comprehensive review of the
core methods that characterize each stage of this roadmap. (3) We analyze the
critical landscape of evaluation benchmarks and transformative applications.
(4) We identify significant challenges and outline promising future directions.
By providing this structured overview, we aim to offer a clear roadmap for
future research towards more powerful and human-aligned multimodal AI.