ChatPaper.aiChatPaper

URSA: Comprendiendo y Verificando el Razonamiento en Cadena de Pensamiento en Matemáticas Multimodales

URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics

January 8, 2025
Autores: Ruilin Luo, Zhuofan Zheng, Yifan Wang, Yiyao Yu, Xinzhe Ni, Zicheng Lin, Jin Zeng, Yujiu Yang
cs.AI

Resumen

El razonamiento de Cadena de Pensamiento (CoT) ha sido ampliamente aplicado en el razonamiento matemático de Modelos de Lenguaje Extensos (LLMs). Recientemente, la introducción de supervisión de procesos derivados en las trayectorias de CoT ha generado discusiones sobre cómo mejorar las capacidades de escalado durante el tiempo de prueba, potenciando así el potencial de estos modelos. Sin embargo, en el razonamiento matemático multimodal, la escasez de datos de entrenamiento de CoT de alta calidad ha obstaculizado a los modelos existentes para lograr un razonamiento preciso de CoT y ha limitado la realización del potencial de razonamiento durante el tiempo de prueba. En este trabajo, proponemos una estrategia de síntesis de tres módulos que integra la destilación de CoT, la reescritura en formato de trayectoria y la unificación de formato. Esto resulta en un conjunto de datos de ajuste fino de instrucciones de razonamiento de CoT de alta calidad en matemáticas multimodales, MMathCoT-1M. Validamos exhaustivamente el rendimiento de vanguardia (SOTA) del modelo entrenado URSA-7B en múltiples referencias matemáticas multimodales. Para el escalado en tiempo de prueba, introducimos una estrategia de síntesis de datos que genera automáticamente conjuntos de datos de anotación de procesos, conocidos como DualMath-1.1M, centrándose tanto en la interpretación como en la lógica. Al entrenar aún más a URSA-7B en DualMath-1.1M, pasamos de las capacidades de razonamiento de CoT a habilidades de supervisión robustas. El modelo entrenado URSA-RM-7B actúa como verificador, mejorando efectivamente el rendimiento de URSA-7B en el tiempo de prueba. URSA-RM-7B también demuestra excelentes capacidades de verificación fuera de distribución (OOD), mostrando su capacidad de generalización. Los pesos del modelo, los datos de entrenamiento y el código serán de código abierto.
English
Chain-of-thought (CoT) reasoning has been widely applied in the mathematical reasoning of Large Language Models (LLMs). Recently, the introduction of derivative process supervision on CoT trajectories has sparked discussions on enhancing scaling capabilities during test time, thereby boosting the potential of these models. However, in multimodal mathematical reasoning, the scarcity of high-quality CoT training data has hindered existing models from achieving high-precision CoT reasoning and has limited the realization of reasoning potential during test time. In this work, we propose a three-module synthesis strategy that integrates CoT distillation, trajectory-format rewriting, and format unification. It results in a high-quality CoT reasoning instruction fine-tuning dataset in multimodal mathematics, MMathCoT-1M. We comprehensively validate the state-of-the-art (SOTA) performance of the trained URSA-7B model on multiple multimodal mathematical benchmarks. For test-time scaling, we introduce a data synthesis strategy that automatically generates process annotation datasets, known as DualMath-1.1M, focusing on both interpretation and logic. By further training URSA-7B on DualMath-1.1M, we transition from CoT reasoning capabilities to robust supervision abilities. The trained URSA-RM-7B acts as a verifier, effectively enhancing the performance of URSA-7B at test time. URSA-RM-7B also demonstrates excellent out-of-distribution (OOD) verifying capabilities, showcasing its generalization. Model weights, training data and code will be open-sourced.

Summary

AI-Generated Summary

PDF543January 9, 2025