Razonamiento Multimodal para la Ciencia: Informe Técnico y Solución Ganadora del Primer Lugar en el Desafío SeePhys de ICML 2025

Resumen

El razonamiento multimodal sigue siendo un desafío fundamental en la inteligencia artificial. A pesar de los avances significativos en el razonamiento basado en texto, incluso los modelos más avanzados, como GPT-3, tienen dificultades para mantener un rendimiento sólido en escenarios multimodales. Para abordar esta brecha, presentamos un marco de razonamiento asistido por subtítulos que efectivamente conecta las modalidades visual y textual. Nuestro enfoque obtuvo el primer lugar en el ICML 2025 AI for Math Workshop & Challenge 2: SeePhys, destacando su eficacia y robustez. Además, validamos su generalización en el benchmark MathVerse para el razonamiento geométrico, demostrando la versatilidad de nuestro método. Nuestro código está disponible públicamente en https://github.com/OpenDCAI/SciReasoner.

English

Multimodal reasoning remains a fundamental challenge in artificial intelligence. Despite substantial advances in text-based reasoning, even state-of-the-art models such as GPT-o3 struggle to maintain strong performance in multimodal scenarios. To address this gap, we introduce a caption-assisted reasoning framework that effectively bridges visual and textual modalities. Our approach achieved 1st place in the ICML 2025 AI for Math Workshop \& Challenge 2: SeePhys, highlighting its effectiveness and robustness. Furthermore, we validate its generalization on the MathVerse benchmark for geometric reasoning, demonstrating the versatility of our method. Our code is publicly available at https://github.com/OpenDCAI/SciReasoner.

Razonamiento Multimodal para la Ciencia: Informe Técnico y Solución Ganadora del Primer Lugar en el Desafío SeePhys de ICML 2025

Multimodal Reasoning for Science: Technical Report and 1st Place Solution to the ICML 2025 SeePhys Challenge

Resumen

Support