Восприятие, Рассуждение, Мышление и Планирование: Обзор крупномасштабных мультимодальных моделей рассужденийPerception, Reason, Think, and Plan: A Survey on Large Multimodal
Reasoning Models
Рассуждения лежат в основе интеллекта, формируя способность принимать решения, делать выводы и обобщать знания в различных областях. В искусственном интеллекте, по мере того как системы всё чаще функционируют в открытых, неопределённых и мультимодальных средах, рассуждения становятся ключевыми для обеспечения устойчивого и адаптивного поведения. Крупные мультимодальные модели рассуждений (LMRMs) появились как перспективная парадигма, интегрирующая такие модальности, как текст, изображения, аудио и видео, для поддержки сложных способностей к рассуждению и стремясь к достижению всестороннего восприятия, точного понимания и глубокого анализа. По мере развития исследований мультимодальные рассуждения быстро эволюционировали от модульных, восприятие-ориентированных подходов к унифицированным, языко-центричным фреймворкам, которые обеспечивают более согласованное кросс-модальное понимание. Хотя настройка на инструкции и обучение с подкреплением улучшили способности моделей к рассуждению, значительные вызовы остаются в области омни-модальной генерализации, глубины рассуждений и агентного поведения. Для решения этих проблем мы представляем всесторонний и структурированный обзор исследований мультимодальных рассуждений, организованный вокруг четырёхэтапной дорожной карты развития, отражающей меняющиеся философии проектирования и возникающие возможности в этой области. Сначала мы рассматриваем ранние подходы, основанные на задачах-специфичных модулях, где рассуждения были неявно встроены в этапы представления, согласования и слияния. Затем мы анализируем современные методы, объединяющие рассуждения в мультимодальные LLM, с такими достижениями, как мультимодальная цепочка рассуждений (MCoT) и мультимодальное обучение с подкреплением, которые позволяют создавать более богатые и структурированные цепочки рассуждений. Наконец, опираясь на эмпирические данные из сложных бенчмарков и экспериментальных случаев OpenAI O3 и O4-mini, мы обсуждаем концептуальное направление нативных крупных мультимодальных моделей рассуждений (N-LMRMs), которые нацелены на поддержку масштабируемых, агентных и адаптивных рассуждений и планирования в сложных реальных условиях.