ChatPaper.aiChatPaper

Percepção, Raciocínio, Pensamento e Planejamento: Uma Análise sobre Modelos de Raciocínio Multimodal em Grande Escala

Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models

May 8, 2025
Autores: Yunxin Li, Zhenyu Liu, Zitao Li, Xuanyu Zhang, Zhenran Xu, Xinyu Chen, Haoyuan Shi, Shenyuan Jiang, Xintong Wang, Jifang Wang, Shouzheng Huang, Xinping Zhao, Borui Jiang, Lanqing Hong, Longyue Wang, Zhuotao Tian, Baoxing Huai, Wenhan Luo, Weihua Luo, Zheng Zhang, Baotian Hu, Min Zhang
cs.AI

Resumo

O raciocínio está no cerne da inteligência, moldando a capacidade de tomar decisões, tirar conclusões e generalizar entre domínios. Na inteligência artificial, à medida que os sistemas operam cada vez mais em ambientes abertos, incertos e multimodais, o raciocínio torna-se essencial para permitir comportamentos robustos e adaptativos. Os Grandes Modelos de Raciocínio Multimodal (LMRMs, na sigla em inglês) surgiram como um paradigma promissor, integrando modalidades como texto, imagens, áudio e vídeo para apoiar capacidades complexas de raciocínio e visando alcançar percepção abrangente, compreensão precisa e raciocínio profundo. Com o avanço das pesquisas, o raciocínio multimodal evoluiu rapidamente de pipelines modulares e orientados por percepção para frameworks unificados e centrados em linguagem, que oferecem uma compreensão mais coerente entre modalidades. Embora o ajuste por instrução e o aprendizado por reforço tenham aprimorado o raciocínio dos modelos, desafios significativos permanecem em termos de generalização omni-modal, profundidade de raciocínio e comportamento agentivo. Para abordar essas questões, apresentamos uma revisão abrangente e estruturada da pesquisa em raciocínio multimodal, organizada em torno de um roteiro de desenvolvimento em quatro estágios que reflete as mudanças nas filosofias de design e as capacidades emergentes do campo. Primeiro, revisamos os esforços iniciais baseados em módulos específicos para tarefas, onde o raciocínio era implicitamente incorporado em estágios de representação, alinhamento e fusão. Em seguida, examinamos abordagens recentes que unificam o raciocínio em LLMs multimodais, com avanços como o Multimodal Chain-of-Thought (MCoT) e o aprendizado por reforço multimodal, permitindo cadeias de raciocínio mais ricas e estruturadas. Por fim, com base em insights empíricos de benchmarks desafiadores e casos experimentais do OpenAI O3 e O4-mini, discutimos a direção conceitual dos modelos nativos de raciocínio multimodal em larga escala (N-LMRMs), que visam apoiar raciocínio e planejamento escaláveis, agentivos e adaptativos em ambientes complexos do mundo real.
English
Reasoning lies at the heart of intelligence, shaping the ability to make decisions, draw conclusions, and generalize across domains. In artificial intelligence, as systems increasingly operate in open, uncertain, and multimodal environments, reasoning becomes essential for enabling robust and adaptive behavior. Large Multimodal Reasoning Models (LMRMs) have emerged as a promising paradigm, integrating modalities such as text, images, audio, and video to support complex reasoning capabilities and aiming to achieve comprehensive perception, precise understanding, and deep reasoning. As research advances, multimodal reasoning has rapidly evolved from modular, perception-driven pipelines to unified, language-centric frameworks that offer more coherent cross-modal understanding. While instruction tuning and reinforcement learning have improved model reasoning, significant challenges remain in omni-modal generalization, reasoning depth, and agentic behavior. To address these issues, we present a comprehensive and structured survey of multimodal reasoning research, organized around a four-stage developmental roadmap that reflects the field's shifting design philosophies and emerging capabilities. First, we review early efforts based on task-specific modules, where reasoning was implicitly embedded across stages of representation, alignment, and fusion. Next, we examine recent approaches that unify reasoning into multimodal LLMs, with advances such as Multimodal Chain-of-Thought (MCoT) and multimodal reinforcement learning enabling richer and more structured reasoning chains. Finally, drawing on empirical insights from challenging benchmarks and experimental cases of OpenAI O3 and O4-mini, we discuss the conceptual direction of native large multimodal reasoning models (N-LMRMs), which aim to support scalable, agentic, and adaptive reasoning and planning in complex, real-world environments.
PDF1854February 8, 2026