Восприятие, Рассуждение, Мышление и Планирование: Обзор крупномасштабных мультимодальных моделей рассуждений
Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models
May 8, 2025
Авторы: Yunxin Li, Zhenyu Liu, Zitao Li, Xuanyu Zhang, Zhenran Xu, Xinyu Chen, Haoyuan Shi, Shenyuan Jiang, Xintong Wang, Jifang Wang, Shouzheng Huang, Xinping Zhao, Borui Jiang, Lanqing Hong, Longyue Wang, Zhuotao Tian, Baoxing Huai, Wenhan Luo, Weihua Luo, Zheng Zhang, Baotian Hu, Min Zhang
cs.AI
Аннотация
Рассуждения лежат в основе интеллекта, формируя способность принимать решения, делать выводы и обобщать знания в различных областях. В искусственном интеллекте, по мере того как системы всё чаще функционируют в открытых, неопределённых и мультимодальных средах, рассуждения становятся ключевыми для обеспечения устойчивого и адаптивного поведения. Крупные мультимодальные модели рассуждений (LMRMs) появились как перспективная парадигма, интегрирующая такие модальности, как текст, изображения, аудио и видео, для поддержки сложных способностей к рассуждению и стремясь к достижению всестороннего восприятия, точного понимания и глубокого анализа. По мере развития исследований мультимодальные рассуждения быстро эволюционировали от модульных, восприятие-ориентированных подходов к унифицированным, языко-центричным фреймворкам, которые обеспечивают более согласованное кросс-модальное понимание. Хотя настройка на инструкции и обучение с подкреплением улучшили способности моделей к рассуждению, значительные вызовы остаются в области омни-модальной генерализации, глубины рассуждений и агентного поведения. Для решения этих проблем мы представляем всесторонний и структурированный обзор исследований мультимодальных рассуждений, организованный вокруг четырёхэтапной дорожной карты развития, отражающей меняющиеся философии проектирования и возникающие возможности в этой области. Сначала мы рассматриваем ранние подходы, основанные на задачах-специфичных модулях, где рассуждения были неявно встроены в этапы представления, согласования и слияния. Затем мы анализируем современные методы, объединяющие рассуждения в мультимодальные LLM, с такими достижениями, как мультимодальная цепочка рассуждений (MCoT) и мультимодальное обучение с подкреплением, которые позволяют создавать более богатые и структурированные цепочки рассуждений. Наконец, опираясь на эмпирические данные из сложных бенчмарков и экспериментальных случаев OpenAI O3 и O4-mini, мы обсуждаем концептуальное направление нативных крупных мультимодальных моделей рассуждений (N-LMRMs), которые нацелены на поддержку масштабируемых, агентных и адаптивных рассуждений и планирования в сложных реальных условиях.
English
Reasoning lies at the heart of intelligence, shaping the ability to make
decisions, draw conclusions, and generalize across domains. In artificial
intelligence, as systems increasingly operate in open, uncertain, and
multimodal environments, reasoning becomes essential for enabling robust and
adaptive behavior. Large Multimodal Reasoning Models (LMRMs) have emerged as a
promising paradigm, integrating modalities such as text, images, audio, and
video to support complex reasoning capabilities and aiming to achieve
comprehensive perception, precise understanding, and deep reasoning. As
research advances, multimodal reasoning has rapidly evolved from modular,
perception-driven pipelines to unified, language-centric frameworks that offer
more coherent cross-modal understanding. While instruction tuning and
reinforcement learning have improved model reasoning, significant challenges
remain in omni-modal generalization, reasoning depth, and agentic behavior. To
address these issues, we present a comprehensive and structured survey of
multimodal reasoning research, organized around a four-stage developmental
roadmap that reflects the field's shifting design philosophies and emerging
capabilities. First, we review early efforts based on task-specific modules,
where reasoning was implicitly embedded across stages of representation,
alignment, and fusion. Next, we examine recent approaches that unify reasoning
into multimodal LLMs, with advances such as Multimodal Chain-of-Thought (MCoT)
and multimodal reinforcement learning enabling richer and more structured
reasoning chains. Finally, drawing on empirical insights from challenging
benchmarks and experimental cases of OpenAI O3 and O4-mini, we discuss the
conceptual direction of native large multimodal reasoning models (N-LMRMs),
which aim to support scalable, agentic, and adaptive reasoning and planning in
complex, real-world environments.Summary
AI-Generated Summary