¿Por qué importa el razonamiento? Un estudio sobre los avances en el razonamiento multimodal (v1)
Why Reasoning Matters? A Survey of Advancements in Multimodal Reasoning (v1)
April 4, 2025
Autores: Jing Bi, Susan Liang, Xiaofei Zhou, Pinxin Liu, Junjia Guo, Yunlong Tang, Luchuan Song, Chao Huang, Guangyu Sun, Jinxi He, Jiarui Wu, Shu Yang, Daoan Zhang, Chen Chen, Lianggong Bruce Wen, Zhang Liu, Jiebo Luo, Chenliang Xu
cs.AI
Resumen
El razonamiento es fundamental para la inteligencia humana, permitiendo la resolución estructurada de problemas en diversas tareas. Los recientes avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han mejorado significativamente sus capacidades de razonamiento en dominios aritméticos, de sentido común y simbólicos. Sin embargo, extender eficazmente estas capacidades a contextos multimodales—donde los modelos deben integrar tanto entradas visuales como textuales—sigue siendo un desafío importante. El razonamiento multimodal introduce complejidades, como manejar información conflictiva entre modalidades, lo que requiere que los modelos adopten estrategias interpretativas avanzadas. Abordar estos desafíos implica no solo algoritmos sofisticados, sino también metodologías robustas para evaluar la precisión y coherencia del razonamiento. Este artículo ofrece una visión general concisa pero perspicaz de las técnicas de razonamiento en LLMs tanto textuales como multimodales. A través de una comparación exhaustiva y actualizada, formulamos claramente los desafíos y oportunidades centrales del razonamiento, destacando métodos prácticos para la optimización post-entrenamiento y la inferencia en tiempo de prueba. Nuestro trabajo proporciona ideas y orientaciones valiosas, conectando marcos teóricos con implementaciones prácticas, y establece direcciones claras para futuras investigaciones.
English
Reasoning is central to human intelligence, enabling structured
problem-solving across diverse tasks. Recent advances in large language models
(LLMs) have greatly enhanced their reasoning abilities in arithmetic,
commonsense, and symbolic domains. However, effectively extending these
capabilities into multimodal contexts-where models must integrate both visual
and textual inputs-continues to be a significant challenge. Multimodal
reasoning introduces complexities, such as handling conflicting information
across modalities, which require models to adopt advanced interpretative
strategies. Addressing these challenges involves not only sophisticated
algorithms but also robust methodologies for evaluating reasoning accuracy and
coherence. This paper offers a concise yet insightful overview of reasoning
techniques in both textual and multimodal LLMs. Through a thorough and
up-to-date comparison, we clearly formulate core reasoning challenges and
opportunities, highlighting practical methods for post-training optimization
and test-time inference. Our work provides valuable insights and guidance,
bridging theoretical frameworks and practical implementations, and sets clear
directions for future research.Summary
AI-Generated Summary