感知、推理、思考与规划:大型多模态推理模型综述Perception, Reason, Think, and Plan: A Survey on Large Multimodal
Reasoning Models
推理是智能的核心,它塑造了决策、得出结论以及跨领域泛化的能力。在人工智能领域,随着系统越来越多地在开放、不确定和多模态环境中运行,推理成为实现稳健和自适应行为的关键。大型多模态推理模型(LMRMs)作为一种有前景的范式应运而生,它整合了文本、图像、音频和视频等多种模态,以支持复杂的推理能力,并致力于实现全面的感知、精确的理解和深度的推理。随着研究的深入,多模态推理已从模块化、感知驱动的流程迅速演变为统一、以语言为中心的框架,这些框架提供了更加连贯的跨模态理解。尽管指令微调和强化学习提升了模型的推理能力,但在全模态泛化、推理深度和代理行为方面仍存在重大挑战。针对这些问题,我们提出了一份全面且结构化的多模态推理研究综述,围绕一个四阶段的发展路线图组织,该路线图反映了该领域设计理念的转变和新兴能力。首先,我们回顾了基于任务特定模块的早期努力,其中推理隐含地嵌入在表示、对齐和融合的各个阶段。接着,我们探讨了将推理统一到多模态大语言模型(LLMs)中的最新方法,如多模态思维链(MCoT)和多模态强化学习等进展,使得推理链更加丰富和结构化。最后,基于OpenAI O3和O4-mini在挑战性基准测试和实验案例中的实证洞察,我们讨论了原生大型多模态推理模型(N-LMRMs)的概念方向,这些模型旨在支持复杂现实环境中可扩展、代理性和自适应的推理与规划。