ChatPaper.aiChatPaper

URSA: Понимание и Проверка Цепочки Мыслительных Процессов в Мультимодальной Математике

URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics

January 8, 2025
Авторы: Ruilin Luo, Zhuofan Zheng, Yifan Wang, Yiyao Yu, Xinzhe Ni, Zicheng Lin, Jin Zeng, Yujiu Yang
cs.AI

Аннотация

Рассуждение по цепочке (CoT) широко применяется в математическом рассуждении моделей больших языков (LLM). Недавно внедрение процесса дифференциации на траектории CoT вызвало обсуждения о повышении масштабируемости во время тестирования, тем самым увеличивая потенциал этих моделей. Однако в мультимодальном математическом рассуждении недостаток качественных данных для обучения CoT препятствовал существующим моделям достижению высокоточного рассуждения по CoT и ограничил реализацию потенциала рассуждения во время тестирования. В данной работе мы предлагаем стратегию синтеза из трех модулей, которая интегрирует дистилляцию CoT, переписывание формата траектории и унификацию формата. Это приводит к созданию качественного набора данных для настройки инструкций рассуждения по CoT в мультимодальной математике, MMathCoT-1M. Мы всесторонне проверяем современное состояние (SOTA) производительности обученной модели URSA-7B на нескольких мультимодальных математических бенчмарках. Для масштабирования во время тестирования мы предлагаем стратегию синтеза данных, которая автоматически генерирует наборы данных с аннотациями процесса, известные как DualMath-1.1M, с акцентом на интерпретацию и логику. После дополнительного обучения URSA-7B на DualMath-1.1M, мы переходим от возможностей рассуждения по CoT к устойчивым способностям надзора. Обученная модель URSA-RM-7B действует как верификатор, эффективно повышая производительность URSA-7B во время тестирования. URSA-RM-7B также демонстрирует отличные способности верификации вне распределения (OOD), показывая свою обобщенность. Веса модели, обучающие данные и код будут опубликованы в открытом доступе.
English
Chain-of-thought (CoT) reasoning has been widely applied in the mathematical reasoning of Large Language Models (LLMs). Recently, the introduction of derivative process supervision on CoT trajectories has sparked discussions on enhancing scaling capabilities during test time, thereby boosting the potential of these models. However, in multimodal mathematical reasoning, the scarcity of high-quality CoT training data has hindered existing models from achieving high-precision CoT reasoning and has limited the realization of reasoning potential during test time. In this work, we propose a three-module synthesis strategy that integrates CoT distillation, trajectory-format rewriting, and format unification. It results in a high-quality CoT reasoning instruction fine-tuning dataset in multimodal mathematics, MMathCoT-1M. We comprehensively validate the state-of-the-art (SOTA) performance of the trained URSA-7B model on multiple multimodal mathematical benchmarks. For test-time scaling, we introduce a data synthesis strategy that automatically generates process annotation datasets, known as DualMath-1.1M, focusing on both interpretation and logic. By further training URSA-7B on DualMath-1.1M, we transition from CoT reasoning capabilities to robust supervision abilities. The trained URSA-RM-7B acts as a verifier, effectively enhancing the performance of URSA-7B at test time. URSA-RM-7B also demonstrates excellent out-of-distribution (OOD) verifying capabilities, showcasing its generalization. Model weights, training data and code will be open-sourced.

Summary

AI-Generated Summary

PDF543January 9, 2025