科学のためのマルチモーダル推論:技術レポートとICML 2025 SeePhysチャレンジ優勝ソリューション
Multimodal Reasoning for Science: Technical Report and 1st Place Solution to the ICML 2025 SeePhys Challenge
September 7, 2025
著者: Hao Liang, Ruitao Wu, Bohan Zeng, Junbo Niu, Wentao Zhang, Bin Dong
cs.AI
要旨
マルチモーダル推論は、人工知能における根本的な課題として残されている。テキストベースの推論においては大きな進展が見られるものの、GPT-3のような最先端のモデルでさえ、マルチモーダルシナリオでは高い性能を維持することが困難である。このギャップを埋めるため、我々は視覚とテキストのモダリティを効果的に橋渡しするキャプション支援型推論フレームワークを提案する。本手法はICML 2025 AI for Math Workshop & Challenge 2: SeePhysにおいて1位を獲得し、その有効性と堅牢性を実証した。さらに、幾何学的推論のためのMathVerseベンチマークにおいてもその汎用性を検証し、本手法の多様性を示した。我々のコードはhttps://github.com/OpenDCAI/SciReasonerで公開されている。
English
Multimodal reasoning remains a fundamental challenge in artificial
intelligence. Despite substantial advances in text-based reasoning, even
state-of-the-art models such as GPT-o3 struggle to maintain strong performance
in multimodal scenarios. To address this gap, we introduce a caption-assisted
reasoning framework that effectively bridges visual and textual modalities. Our
approach achieved 1st place in the ICML 2025 AI for Math Workshop \& Challenge
2: SeePhys, highlighting its effectiveness and robustness. Furthermore, we
validate its generalization on the MathVerse benchmark for geometric reasoning,
demonstrating the versatility of our method. Our code is publicly available at
https://github.com/OpenDCAI/SciReasoner.