Multimodale Redenering voor Wetenschap: Technisch Rapport en Eerste Prijs Oplossing voor de ICML 2025 SeePhys Challenge
Multimodal Reasoning for Science: Technical Report and 1st Place Solution to the ICML 2025 SeePhys Challenge
September 7, 2025
Auteurs: Hao Liang, Ruitao Wu, Bohan Zeng, Junbo Niu, Wentao Zhang, Bin Dong
cs.AI
Samenvatting
Multimodale redenering blijft een fundamentele uitdaging in kunstmatige intelligentie. Ondanks aanzienlijke vooruitgang in tekstgebaseerd redeneren, hebben zelfs state-of-the-art modellen zoals GPT-3 moeite om sterke prestaties te behouden in multimodale scenario's. Om deze kloof te overbruggen, introduceren we een raamwerk voor bijschrift-ondersteund redeneren dat visuele en tekstuele modaliteiten effectief verbindt. Onze aanpak behaalde de eerste plaats in de ICML 2025 AI for Math Workshop & Challenge 2: SeePhys, wat de effectiviteit en robuustheid ervan benadrukt. Bovendien valideren we de generalisatie ervan op de MathVerse-benchmark voor geometrisch redeneren, wat de veelzijdigheid van onze methode aantoont. Onze code is publiekelijk beschikbaar op https://github.com/OpenDCAI/SciReasoner.
English
Multimodal reasoning remains a fundamental challenge in artificial
intelligence. Despite substantial advances in text-based reasoning, even
state-of-the-art models such as GPT-o3 struggle to maintain strong performance
in multimodal scenarios. To address this gap, we introduce a caption-assisted
reasoning framework that effectively bridges visual and textual modalities. Our
approach achieved 1st place in the ICML 2025 AI for Math Workshop \& Challenge
2: SeePhys, highlighting its effectiveness and robustness. Furthermore, we
validate its generalization on the MathVerse benchmark for geometric reasoning,
demonstrating the versatility of our method. Our code is publicly available at
https://github.com/OpenDCAI/SciReasoner.