ChatPaper.aiChatPaper

¿Por qué importa el razonamiento? Un estudio sobre los avances en el razonamiento multimodal (v1)

Why Reasoning Matters? A Survey of Advancements in Multimodal Reasoning (v1)

April 4, 2025
Autores: Jing Bi, Susan Liang, Xiaofei Zhou, Pinxin Liu, Junjia Guo, Yunlong Tang, Luchuan Song, Chao Huang, Guangyu Sun, Jinxi He, Jiarui Wu, Shu Yang, Daoan Zhang, Chen Chen, Lianggong Bruce Wen, Zhang Liu, Jiebo Luo, Chenliang Xu
cs.AI

Resumen

El razonamiento es fundamental para la inteligencia humana, permitiendo la resolución estructurada de problemas en diversas tareas. Los recientes avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han mejorado significativamente sus capacidades de razonamiento en dominios aritméticos, de sentido común y simbólicos. Sin embargo, extender eficazmente estas capacidades a contextos multimodales—donde los modelos deben integrar tanto entradas visuales como textuales—sigue siendo un desafío importante. El razonamiento multimodal introduce complejidades, como manejar información conflictiva entre modalidades, lo que requiere que los modelos adopten estrategias interpretativas avanzadas. Abordar estos desafíos implica no solo algoritmos sofisticados, sino también metodologías robustas para evaluar la precisión y coherencia del razonamiento. Este artículo ofrece una visión general concisa pero perspicaz de las técnicas de razonamiento en LLMs tanto textuales como multimodales. A través de una comparación exhaustiva y actualizada, formulamos claramente los desafíos y oportunidades centrales del razonamiento, destacando métodos prácticos para la optimización post-entrenamiento y la inferencia en tiempo de prueba. Nuestro trabajo proporciona ideas y orientaciones valiosas, conectando marcos teóricos con implementaciones prácticas, y establece direcciones claras para futuras investigaciones.
English
Reasoning is central to human intelligence, enabling structured problem-solving across diverse tasks. Recent advances in large language models (LLMs) have greatly enhanced their reasoning abilities in arithmetic, commonsense, and symbolic domains. However, effectively extending these capabilities into multimodal contexts-where models must integrate both visual and textual inputs-continues to be a significant challenge. Multimodal reasoning introduces complexities, such as handling conflicting information across modalities, which require models to adopt advanced interpretative strategies. Addressing these challenges involves not only sophisticated algorithms but also robust methodologies for evaluating reasoning accuracy and coherence. This paper offers a concise yet insightful overview of reasoning techniques in both textual and multimodal LLMs. Through a thorough and up-to-date comparison, we clearly formulate core reasoning challenges and opportunities, highlighting practical methods for post-training optimization and test-time inference. Our work provides valuable insights and guidance, bridging theoretical frameworks and practical implementations, and sets clear directions for future research.

Summary

AI-Generated Summary

PDF141April 8, 2025