Waarneming, Redeneren, Denken en Plannen: Een Overzicht van Grote Multimodale Redeneermodellen
Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models
May 8, 2025
Auteurs: Yunxin Li, Zhenyu Liu, Zitao Li, Xuanyu Zhang, Zhenran Xu, Xinyu Chen, Haoyuan Shi, Shenyuan Jiang, Xintong Wang, Jifang Wang, Shouzheng Huang, Xinping Zhao, Borui Jiang, Lanqing Hong, Longyue Wang, Zhuotao Tian, Baoxing Huai, Wenhan Luo, Weihua Luo, Zheng Zhang, Baotian Hu, Min Zhang
cs.AI
Samenvatting
Redeneren ligt aan de basis van intelligentie en vormt het vermogen om beslissingen te nemen, conclusies te trekken en te generaliseren over domeinen heen. In kunstmatige intelligentie, waar systemen steeds vaker opereren in open, onzekere en multimodale omgevingen, wordt redeneren essentieel voor het mogelijk maken van robuust en adaptief gedrag. Grote Multimodale Redeneermodellen (Large Multimodal Reasoning Models, LMRMs) zijn naar voren gekomen als een veelbelovend paradigma, waarbij modaliteiten zoals tekst, afbeeldingen, audio en video worden geïntegreerd om complexe redeneervaardigheden te ondersteunen en te streven naar uitgebreide waarneming, precies begrip en diepgaand redeneren. Naarmate het onderzoek vordert, is multimodaal redeneren snel geëvolueerd van modulaire, perceptiegedreven pijplijnen naar uniforme, taalgerichte frameworks die een meer coherente kruismodale begrip bieden. Hoewel instructieafstemming en reinforcement learning het redeneren van modellen hebben verbeterd, blijven er aanzienlijke uitdagingen bestaan op het gebied van omnimodale generalisatie, redeneerdiepte en agentisch gedrag. Om deze problemen aan te pakken, presenteren we een uitgebreid en gestructureerd overzicht van onderzoek naar multimodaal redeneren, georganiseerd rond een vierfasen ontwikkelingsroutekaart die de verschuivende ontwerpfilosofieën en opkomende mogelijkheden van het vakgebied weerspiegelt. Eerst bespreken we vroege inspanningen gebaseerd op taakspecifieke modules, waarbij redeneren impliciet was ingebed in fasen van representatie, uitlijning en fusie. Vervolgens onderzoeken we recente benaderingen die redeneren unificeren in multimodale LLM's, waarbij vooruitgang zoals Multimodale Chain-of-Thought (MCoT) en multimodale reinforcement learning rijkere en meer gestructureerde redeneerketens mogelijk maken. Ten slotte, voortbouwend op empirische inzichten uit uitdagende benchmarks en experimentele gevallen van OpenAI O3 en O4-mini, bespreken we de conceptuele richting van native grote multimodale redeneermodellen (N-LMRMs), die gericht zijn op het ondersteunen van schaalbare, agentische en adaptieve redenering en planning in complexe, real-world omgevingen.
English
Reasoning lies at the heart of intelligence, shaping the ability to make
decisions, draw conclusions, and generalize across domains. In artificial
intelligence, as systems increasingly operate in open, uncertain, and
multimodal environments, reasoning becomes essential for enabling robust and
adaptive behavior. Large Multimodal Reasoning Models (LMRMs) have emerged as a
promising paradigm, integrating modalities such as text, images, audio, and
video to support complex reasoning capabilities and aiming to achieve
comprehensive perception, precise understanding, and deep reasoning. As
research advances, multimodal reasoning has rapidly evolved from modular,
perception-driven pipelines to unified, language-centric frameworks that offer
more coherent cross-modal understanding. While instruction tuning and
reinforcement learning have improved model reasoning, significant challenges
remain in omni-modal generalization, reasoning depth, and agentic behavior. To
address these issues, we present a comprehensive and structured survey of
multimodal reasoning research, organized around a four-stage developmental
roadmap that reflects the field's shifting design philosophies and emerging
capabilities. First, we review early efforts based on task-specific modules,
where reasoning was implicitly embedded across stages of representation,
alignment, and fusion. Next, we examine recent approaches that unify reasoning
into multimodal LLMs, with advances such as Multimodal Chain-of-Thought (MCoT)
and multimodal reinforcement learning enabling richer and more structured
reasoning chains. Finally, drawing on empirical insights from challenging
benchmarks and experimental cases of OpenAI O3 and O4-mini, we discuss the
conceptual direction of native large multimodal reasoning models (N-LMRMs),
which aim to support scalable, agentic, and adaptive reasoning and planning in
complex, real-world environments.