Ragionamento Multimodale per la Scienza: Rapporto Tecnico e Soluzione al Primo Posto della Sfida SeePhys di ICML 2025

Abstract

Il ragionamento multimodale rimane una sfida fondamentale nell'intelligenza artificiale. Nonostante i notevoli progressi nel ragionamento basato su testo, anche i modelli all'avanguardia come GPT-3 faticano a mantenere prestazioni solide in scenari multimodali. Per colmare questa lacuna, introduciamo un framework di ragionamento assistito da didascalie che collega efficacemente le modalità visive e testuali. Il nostro approccio ha ottenuto il primo posto all'ICML 2025 AI for Math Workshop & Challenge 2: SeePhys, evidenziandone l'efficacia e la robustezza. Inoltre, ne validiamo la generalizzazione sul benchmark MathVerse per il ragionamento geometrico, dimostrando la versatilità del nostro metodo. Il nostro codice è pubblicamente disponibile all'indirizzo https://github.com/OpenDCAI/SciReasoner.

English

Multimodal reasoning remains a fundamental challenge in artificial intelligence. Despite substantial advances in text-based reasoning, even state-of-the-art models such as GPT-o3 struggle to maintain strong performance in multimodal scenarios. To address this gap, we introduce a caption-assisted reasoning framework that effectively bridges visual and textual modalities. Our approach achieved 1st place in the ICML 2025 AI for Math Workshop \& Challenge 2: SeePhys, highlighting its effectiveness and robustness. Furthermore, we validate its generalization on the MathVerse benchmark for geometric reasoning, demonstrating the versatility of our method. Our code is publicly available at https://github.com/OpenDCAI/SciReasoner.

Ragionamento Multimodale per la Scienza: Rapporto Tecnico e Soluzione al Primo Posto della Sfida SeePhys di ICML 2025

Multimodal Reasoning for Science: Technical Report and 1st Place Solution to the ICML 2025 SeePhys Challenge

Abstract

Support