Raciocínio Multimodal para Ciência: Relatório Técnico e Solução Vencedora do Desafio SeePhys do ICML 2025

Resumo

O raciocínio multimodal continua sendo um desafio fundamental na inteligência artificial. Apesar dos avanços significativos no raciocínio baseado em texto, até mesmo modelos de última geração, como o GPT-3, lutam para manter um desempenho robusto em cenários multimodais. Para abordar essa lacuna, introduzimos um framework de raciocínio assistido por legendas que efetivamente conecta as modalidades visual e textual. Nossa abordagem conquistou o primeiro lugar no Workshop de IA para Matemática do ICML 2025 e no Desafio 2: SeePhys, destacando sua eficácia e robustez. Além disso, validamos sua generalização no benchmark MathVerse para raciocínio geométrico, demonstrando a versatilidade do nosso método. Nosso código está disponível publicamente em https://github.com/OpenDCAI/SciReasoner.

English

Multimodal reasoning remains a fundamental challenge in artificial intelligence. Despite substantial advances in text-based reasoning, even state-of-the-art models such as GPT-o3 struggle to maintain strong performance in multimodal scenarios. To address this gap, we introduce a caption-assisted reasoning framework that effectively bridges visual and textual modalities. Our approach achieved 1st place in the ICML 2025 AI for Math Workshop \& Challenge 2: SeePhys, highlighting its effectiveness and robustness. Furthermore, we validate its generalization on the MathVerse benchmark for geometric reasoning, demonstrating the versatility of our method. Our code is publicly available at https://github.com/OpenDCAI/SciReasoner.

Raciocínio Multimodal para Ciência: Relatório Técnico e Solução Vencedora do Desafio SeePhys do ICML 2025

Multimodal Reasoning for Science: Technical Report and 1st Place Solution to the ICML 2025 SeePhys Challenge

Resumo

Support