Восприятие, Рассуждение, Мышление и Планирование: Обзор крупномасштабных мультимодальных моделей рассуждений

Аннотация

Рассуждения лежат в основе интеллекта, формируя способность принимать решения, делать выводы и обобщать знания в различных областях. В искусственном интеллекте, по мере того как системы всё чаще функционируют в открытых, неопределённых и мультимодальных средах, рассуждения становятся ключевыми для обеспечения устойчивого и адаптивного поведения. Крупные мультимодальные модели рассуждений (LMRMs) появились как перспективная парадигма, интегрирующая такие модальности, как текст, изображения, аудио и видео, для поддержки сложных способностей к рассуждению и стремясь к достижению всестороннего восприятия, точного понимания и глубокого анализа. По мере развития исследований мультимодальные рассуждения быстро эволюционировали от модульных, восприятие-ориентированных подходов к унифицированным, языко-центричным фреймворкам, которые обеспечивают более согласованное кросс-модальное понимание. Хотя настройка на инструкции и обучение с подкреплением улучшили способности моделей к рассуждению, значительные вызовы остаются в области омни-модальной генерализации, глубины рассуждений и агентного поведения. Для решения этих проблем мы представляем всесторонний и структурированный обзор исследований мультимодальных рассуждений, организованный вокруг четырёхэтапной дорожной карты развития, отражающей меняющиеся философии проектирования и возникающие возможности в этой области. Сначала мы рассматриваем ранние подходы, основанные на задачах-специфичных модулях, где рассуждения были неявно встроены в этапы представления, согласования и слияния. Затем мы анализируем современные методы, объединяющие рассуждения в мультимодальные LLM, с такими достижениями, как мультимодальная цепочка рассуждений (MCoT) и мультимодальное обучение с подкреплением, которые позволяют создавать более богатые и структурированные цепочки рассуждений. Наконец, опираясь на эмпирические данные из сложных бенчмарков и экспериментальных случаев OpenAI O3 и O4-mini, мы обсуждаем концептуальное направление нативных крупных мультимодальных моделей рассуждений (N-LMRMs), которые нацелены на поддержку масштабируемых, агентных и адаптивных рассуждений и планирования в сложных реальных условиях.

English

Reasoning lies at the heart of intelligence, shaping the ability to make decisions, draw conclusions, and generalize across domains. In artificial intelligence, as systems increasingly operate in open, uncertain, and multimodal environments, reasoning becomes essential for enabling robust and adaptive behavior. Large Multimodal Reasoning Models (LMRMs) have emerged as a promising paradigm, integrating modalities such as text, images, audio, and video to support complex reasoning capabilities and aiming to achieve comprehensive perception, precise understanding, and deep reasoning. As research advances, multimodal reasoning has rapidly evolved from modular, perception-driven pipelines to unified, language-centric frameworks that offer more coherent cross-modal understanding. While instruction tuning and reinforcement learning have improved model reasoning, significant challenges remain in omni-modal generalization, reasoning depth, and agentic behavior. To address these issues, we present a comprehensive and structured survey of multimodal reasoning research, organized around a four-stage developmental roadmap that reflects the field's shifting design philosophies and emerging capabilities. First, we review early efforts based on task-specific modules, where reasoning was implicitly embedded across stages of representation, alignment, and fusion. Next, we examine recent approaches that unify reasoning into multimodal LLMs, with advances such as Multimodal Chain-of-Thought (MCoT) and multimodal reinforcement learning enabling richer and more structured reasoning chains. Finally, drawing on empirical insights from challenging benchmarks and experimental cases of OpenAI O3 and O4-mini, we discuss the conceptual direction of native large multimodal reasoning models (N-LMRMs), which aim to support scalable, agentic, and adaptive reasoning and planning in complex, real-world environments.

Восприятие, Рассуждение, Мышление и Планирование: Обзор крупномасштабных мультимодальных моделей рассуждений

Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models

Аннотация

Support