Pourquoi le raisonnement est-il important ? Un aperçu des avancées en raisonnement multimodal (v1)
Why Reasoning Matters? A Survey of Advancements in Multimodal Reasoning (v1)
April 4, 2025
Auteurs: Jing Bi, Susan Liang, Xiaofei Zhou, Pinxin Liu, Junjia Guo, Yunlong Tang, Luchuan Song, Chao Huang, Guangyu Sun, Jinxi He, Jiarui Wu, Shu Yang, Daoan Zhang, Chen Chen, Lianggong Bruce Wen, Zhang Liu, Jiebo Luo, Chenliang Xu
cs.AI
Résumé
Le raisonnement est au cœur de l'intelligence humaine, permettant une résolution structurée de problèmes dans des tâches variées. Les récents progrès des grands modèles de langage (LLMs) ont considérablement amélioré leurs capacités de raisonnement dans les domaines arithmétiques, de bon sens et symboliques. Cependant, étendre efficacement ces capacités à des contextes multimodaux, où les modèles doivent intégrer à la fois des entrées visuelles et textuelles, reste un défi majeur. Le raisonnement multimodal introduit des complexités, telles que la gestion d'informations conflictuelles entre les modalités, nécessitant des stratégies interprétatives avancées. Relever ces défis implique non seulement des algorithmes sophistiqués, mais aussi des méthodologies robustes pour évaluer la précision et la cohérence du raisonnement. Ce papier propose un aperçu concis mais perspicace des techniques de raisonnement dans les LLMs textuels et multimodaux. À travers une comparaison approfondie et actualisée, nous formulons clairement les défis et opportunités fondamentaux du raisonnement, en mettant en lumière des méthodes pratiques pour l'optimisation post-entraînement et l'inférence en temps réel. Notre travail offre des insights et des orientations précieux, faisant le lien entre les cadres théoriques et les implémentations pratiques, et trace des directions claires pour les recherches futures.
English
Reasoning is central to human intelligence, enabling structured
problem-solving across diverse tasks. Recent advances in large language models
(LLMs) have greatly enhanced their reasoning abilities in arithmetic,
commonsense, and symbolic domains. However, effectively extending these
capabilities into multimodal contexts-where models must integrate both visual
and textual inputs-continues to be a significant challenge. Multimodal
reasoning introduces complexities, such as handling conflicting information
across modalities, which require models to adopt advanced interpretative
strategies. Addressing these challenges involves not only sophisticated
algorithms but also robust methodologies for evaluating reasoning accuracy and
coherence. This paper offers a concise yet insightful overview of reasoning
techniques in both textual and multimodal LLMs. Through a thorough and
up-to-date comparison, we clearly formulate core reasoning challenges and
opportunities, highlighting practical methods for post-training optimization
and test-time inference. Our work provides valuable insights and guidance,
bridging theoretical frameworks and practical implementations, and sets clear
directions for future research.Summary
AI-Generated Summary