Raisonnement multimodal pour la science : Rapport technique et solution primée du défi SeePhys de l'ICML 2025
Multimodal Reasoning for Science: Technical Report and 1st Place Solution to the ICML 2025 SeePhys Challenge
September 7, 2025
papers.authors: Hao Liang, Ruitao Wu, Bohan Zeng, Junbo Niu, Wentao Zhang, Bin Dong
cs.AI
papers.abstract
Le raisonnement multimodal demeure un défi fondamental en intelligence artificielle. Malgré des avancées significatives dans le raisonnement basé sur le texte, même les modèles de pointe tels que GPT-3 peinent à maintenir des performances solides dans des scénarios multimodaux. Pour combler cette lacune, nous introduisons un cadre de raisonnement assisté par des légendes qui relie efficacement les modalités visuelles et textuelles. Notre approche a obtenu la première place lors de l'atelier ICML 2025 AI for Math Workshop & Challenge 2 : SeePhys, soulignant son efficacité et sa robustesse. De plus, nous validons sa généralisation sur le benchmark MathVerse pour le raisonnement géométrique, démontrant ainsi la polyvalence de notre méthode. Notre code est disponible publiquement à l'adresse https://github.com/OpenDCAI/SciReasoner.
English
Multimodal reasoning remains a fundamental challenge in artificial
intelligence. Despite substantial advances in text-based reasoning, even
state-of-the-art models such as GPT-o3 struggle to maintain strong performance
in multimodal scenarios. To address this gap, we introduce a caption-assisted
reasoning framework that effectively bridges visual and textual modalities. Our
approach achieved 1st place in the ICML 2025 AI for Math Workshop \& Challenge
2: SeePhys, highlighting its effectiveness and robustness. Furthermore, we
validate its generalization on the MathVerse benchmark for geometric reasoning,
demonstrating the versatility of our method. Our code is publicly available at
https://github.com/OpenDCAI/SciReasoner.