ChatPaper.aiChatPaper

Pourquoi le raisonnement est-il important ? Un aperçu des avancées en raisonnement multimodal (v1)

Why Reasoning Matters? A Survey of Advancements in Multimodal Reasoning (v1)

April 4, 2025
Auteurs: Jing Bi, Susan Liang, Xiaofei Zhou, Pinxin Liu, Junjia Guo, Yunlong Tang, Luchuan Song, Chao Huang, Guangyu Sun, Jinxi He, Jiarui Wu, Shu Yang, Daoan Zhang, Chen Chen, Lianggong Bruce Wen, Zhang Liu, Jiebo Luo, Chenliang Xu
cs.AI

Résumé

Le raisonnement est au cœur de l'intelligence humaine, permettant une résolution structurée de problèmes dans des tâches variées. Les récents progrès des grands modèles de langage (LLMs) ont considérablement amélioré leurs capacités de raisonnement dans les domaines arithmétiques, de bon sens et symboliques. Cependant, étendre efficacement ces capacités à des contextes multimodaux, où les modèles doivent intégrer à la fois des entrées visuelles et textuelles, reste un défi majeur. Le raisonnement multimodal introduit des complexités, telles que la gestion d'informations conflictuelles entre les modalités, nécessitant des stratégies interprétatives avancées. Relever ces défis implique non seulement des algorithmes sophistiqués, mais aussi des méthodologies robustes pour évaluer la précision et la cohérence du raisonnement. Ce papier propose un aperçu concis mais perspicace des techniques de raisonnement dans les LLMs textuels et multimodaux. À travers une comparaison approfondie et actualisée, nous formulons clairement les défis et opportunités fondamentaux du raisonnement, en mettant en lumière des méthodes pratiques pour l'optimisation post-entraînement et l'inférence en temps réel. Notre travail offre des insights et des orientations précieux, faisant le lien entre les cadres théoriques et les implémentations pratiques, et trace des directions claires pour les recherches futures.
English
Reasoning is central to human intelligence, enabling structured problem-solving across diverse tasks. Recent advances in large language models (LLMs) have greatly enhanced their reasoning abilities in arithmetic, commonsense, and symbolic domains. However, effectively extending these capabilities into multimodal contexts-where models must integrate both visual and textual inputs-continues to be a significant challenge. Multimodal reasoning introduces complexities, such as handling conflicting information across modalities, which require models to adopt advanced interpretative strategies. Addressing these challenges involves not only sophisticated algorithms but also robust methodologies for evaluating reasoning accuracy and coherence. This paper offers a concise yet insightful overview of reasoning techniques in both textual and multimodal LLMs. Through a thorough and up-to-date comparison, we clearly formulate core reasoning challenges and opportunities, highlighting practical methods for post-training optimization and test-time inference. Our work provides valuable insights and guidance, bridging theoretical frameworks and practical implementations, and sets clear directions for future research.

Summary

AI-Generated Summary

PDF141April 8, 2025