Multimodales Reasoning für die Wissenschaft: Technischer Bericht und erstplatzierte Lösung für die ICML 2025 SeePhys Challenge
Multimodal Reasoning for Science: Technical Report and 1st Place Solution to the ICML 2025 SeePhys Challenge
September 7, 2025
papers.authors: Hao Liang, Ruitao Wu, Bohan Zeng, Junbo Niu, Wentao Zhang, Bin Dong
cs.AI
papers.abstract
Multimodales Denken bleibt eine grundlegende Herausforderung in der künstlichen Intelligenz. Trotz erheblicher Fortschritte im textbasierten Denken haben selbst modernste Modelle wie GPT-o3 Schwierigkeiten, eine starke Leistung in multimodalen Szenarien aufrechtzuerhalten. Um diese Lücke zu schließen, führen wir ein beschriftungsgestütztes Denkframework ein, das visuelle und textuelle Modalitäten effektiv verbindet. Unser Ansatz erreichte den ersten Platz beim ICML 2025 AI for Math Workshop & Challenge 2: SeePhys, was seine Wirksamkeit und Robustheit unterstreicht. Darüber hinaus validieren wir seine Generalisierungsfähigkeit auf dem MathVerse-Benchmark für geometrisches Denken, was die Vielseitigkeit unserer Methode demonstriert. Unser Code ist öffentlich verfügbar unter https://github.com/OpenDCAI/SciReasoner.
English
Multimodal reasoning remains a fundamental challenge in artificial
intelligence. Despite substantial advances in text-based reasoning, even
state-of-the-art models such as GPT-o3 struggle to maintain strong performance
in multimodal scenarios. To address this gap, we introduce a caption-assisted
reasoning framework that effectively bridges visual and textual modalities. Our
approach achieved 1st place in the ICML 2025 AI for Math Workshop \& Challenge
2: SeePhys, highlighting its effectiveness and robustness. Furthermore, we
validate its generalization on the MathVerse benchmark for geometric reasoning,
demonstrating the versatility of our method. Our code is publicly available at
https://github.com/OpenDCAI/SciReasoner.