ChatPaper.aiChatPaper

Waarneming, Redeneren, Denken en Plannen: Een Overzicht van Grote Multimodale Redeneermodellen

Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models

May 8, 2025
Auteurs: Yunxin Li, Zhenyu Liu, Zitao Li, Xuanyu Zhang, Zhenran Xu, Xinyu Chen, Haoyuan Shi, Shenyuan Jiang, Xintong Wang, Jifang Wang, Shouzheng Huang, Xinping Zhao, Borui Jiang, Lanqing Hong, Longyue Wang, Zhuotao Tian, Baoxing Huai, Wenhan Luo, Weihua Luo, Zheng Zhang, Baotian Hu, Min Zhang
cs.AI

Samenvatting

Redeneren ligt aan de basis van intelligentie en vormt het vermogen om beslissingen te nemen, conclusies te trekken en te generaliseren over domeinen heen. In kunstmatige intelligentie, waar systemen steeds vaker opereren in open, onzekere en multimodale omgevingen, wordt redeneren essentieel voor het mogelijk maken van robuust en adaptief gedrag. Grote Multimodale Redeneermodellen (Large Multimodal Reasoning Models, LMRMs) zijn naar voren gekomen als een veelbelovend paradigma, waarbij modaliteiten zoals tekst, afbeeldingen, audio en video worden geïntegreerd om complexe redeneervaardigheden te ondersteunen en te streven naar uitgebreide waarneming, precies begrip en diepgaand redeneren. Naarmate het onderzoek vordert, is multimodaal redeneren snel geëvolueerd van modulaire, perceptiegedreven pijplijnen naar uniforme, taalgerichte frameworks die een meer coherente kruismodale begrip bieden. Hoewel instructieafstemming en reinforcement learning het redeneren van modellen hebben verbeterd, blijven er aanzienlijke uitdagingen bestaan op het gebied van omnimodale generalisatie, redeneerdiepte en agentisch gedrag. Om deze problemen aan te pakken, presenteren we een uitgebreid en gestructureerd overzicht van onderzoek naar multimodaal redeneren, georganiseerd rond een vierfasen ontwikkelingsroutekaart die de verschuivende ontwerpfilosofieën en opkomende mogelijkheden van het vakgebied weerspiegelt. Eerst bespreken we vroege inspanningen gebaseerd op taakspecifieke modules, waarbij redeneren impliciet was ingebed in fasen van representatie, uitlijning en fusie. Vervolgens onderzoeken we recente benaderingen die redeneren unificeren in multimodale LLM's, waarbij vooruitgang zoals Multimodale Chain-of-Thought (MCoT) en multimodale reinforcement learning rijkere en meer gestructureerde redeneerketens mogelijk maken. Ten slotte, voortbouwend op empirische inzichten uit uitdagende benchmarks en experimentele gevallen van OpenAI O3 en O4-mini, bespreken we de conceptuele richting van native grote multimodale redeneermodellen (N-LMRMs), die gericht zijn op het ondersteunen van schaalbare, agentische en adaptieve redenering en planning in complexe, real-world omgevingen.
English
Reasoning lies at the heart of intelligence, shaping the ability to make decisions, draw conclusions, and generalize across domains. In artificial intelligence, as systems increasingly operate in open, uncertain, and multimodal environments, reasoning becomes essential for enabling robust and adaptive behavior. Large Multimodal Reasoning Models (LMRMs) have emerged as a promising paradigm, integrating modalities such as text, images, audio, and video to support complex reasoning capabilities and aiming to achieve comprehensive perception, precise understanding, and deep reasoning. As research advances, multimodal reasoning has rapidly evolved from modular, perception-driven pipelines to unified, language-centric frameworks that offer more coherent cross-modal understanding. While instruction tuning and reinforcement learning have improved model reasoning, significant challenges remain in omni-modal generalization, reasoning depth, and agentic behavior. To address these issues, we present a comprehensive and structured survey of multimodal reasoning research, organized around a four-stage developmental roadmap that reflects the field's shifting design philosophies and emerging capabilities. First, we review early efforts based on task-specific modules, where reasoning was implicitly embedded across stages of representation, alignment, and fusion. Next, we examine recent approaches that unify reasoning into multimodal LLMs, with advances such as Multimodal Chain-of-Thought (MCoT) and multimodal reinforcement learning enabling richer and more structured reasoning chains. Finally, drawing on empirical insights from challenging benchmarks and experimental cases of OpenAI O3 and O4-mini, we discuss the conceptual direction of native large multimodal reasoning models (N-LMRMs), which aim to support scalable, agentic, and adaptive reasoning and planning in complex, real-world environments.
PDF1763May 9, 2025