Raciocínio Multimodal para Ciência: Relatório Técnico e Solução Vencedora do Desafio SeePhys do ICML 2025
Multimodal Reasoning for Science: Technical Report and 1st Place Solution to the ICML 2025 SeePhys Challenge
September 7, 2025
Autores: Hao Liang, Ruitao Wu, Bohan Zeng, Junbo Niu, Wentao Zhang, Bin Dong
cs.AI
Resumo
O raciocínio multimodal continua sendo um desafio fundamental na inteligência artificial. Apesar dos avanços significativos no raciocínio baseado em texto, até mesmo modelos de última geração, como o GPT-3, lutam para manter um desempenho robusto em cenários multimodais. Para abordar essa lacuna, introduzimos um framework de raciocínio assistido por legendas que efetivamente conecta as modalidades visual e textual. Nossa abordagem conquistou o primeiro lugar no Workshop de IA para Matemática do ICML 2025 e no Desafio 2: SeePhys, destacando sua eficácia e robustez. Além disso, validamos sua generalização no benchmark MathVerse para raciocínio geométrico, demonstrando a versatilidade do nosso método. Nosso código está disponível publicamente em https://github.com/OpenDCAI/SciReasoner.
English
Multimodal reasoning remains a fundamental challenge in artificial
intelligence. Despite substantial advances in text-based reasoning, even
state-of-the-art models such as GPT-o3 struggle to maintain strong performance
in multimodal scenarios. To address this gap, we introduce a caption-assisted
reasoning framework that effectively bridges visual and textual modalities. Our
approach achieved 1st place in the ICML 2025 AI for Math Workshop \& Challenge
2: SeePhys, highlighting its effectiveness and robustness. Furthermore, we
validate its generalization on the MathVerse benchmark for geometric reasoning,
demonstrating the versatility of our method. Our code is publicly available at
https://github.com/OpenDCAI/SciReasoner.