ChatPaper.aiChatPaper

Мультимодальные рассуждения в науке: Технический отчет и решение, занявшее первое место на соревновании SeePhys ICML 2025

Multimodal Reasoning for Science: Technical Report and 1st Place Solution to the ICML 2025 SeePhys Challenge

September 7, 2025
Авторы: Hao Liang, Ruitao Wu, Bohan Zeng, Junbo Niu, Wentao Zhang, Bin Dong
cs.AI

Аннотация

Мультимодальное рассуждение остается фундаментальной задачей в области искусственного интеллекта. Несмотря на значительные успехи в текстовом анализе, даже передовые модели, такие как GPT-3, испытывают трудности с поддержанием высокой производительности в мультимодальных сценариях. Для преодоления этого разрыва мы представляем фреймворк рассуждений с использованием подписей, который эффективно связывает визуальные и текстовые модальности. Наш подход занял первое место на воркшопе и соревновании ICML 2025 AI for Math Workshop & Challenge 2: SeePhys, что подчеркивает его эффективность и надежность. Кроме того, мы подтверждаем его обобщающую способность на бенчмарке MathVerse для геометрических рассуждений, демонстрируя универсальность нашего метода. Наш код доступен публично по адресу https://github.com/OpenDCAI/SciReasoner.
English
Multimodal reasoning remains a fundamental challenge in artificial intelligence. Despite substantial advances in text-based reasoning, even state-of-the-art models such as GPT-o3 struggle to maintain strong performance in multimodal scenarios. To address this gap, we introduce a caption-assisted reasoning framework that effectively bridges visual and textual modalities. Our approach achieved 1st place in the ICML 2025 AI for Math Workshop \& Challenge 2: SeePhys, highlighting its effectiveness and robustness. Furthermore, we validate its generalization on the MathVerse benchmark for geometric reasoning, demonstrating the versatility of our method. Our code is publicly available at https://github.com/OpenDCAI/SciReasoner.
PDF32September 17, 2025