MathSE: 自己進化型反復的リフレクションと報酬誘導ファインチューニングによるマルチモーダル数学推論の改善
MathSE: Improving Multimodal Mathematical Reasoning via Self-Evolving Iterative Reflection and Reward-Guided Fine-Tuning
November 10, 2025
著者: Jinhao Chen, Zhen Yang, Jianxin Shi, Tianyu Wo, Jie Tang
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLMs)は、視覚言語質問応答タスクにおいて顕著な能力を発揮している。しかしながら、これらのモデルは数学的問題解決のような複雑な推論タスクの達成においてしばしば課題に直面する。従来の研究は専門的な数学データセットに対するファインチューニングに焦点を当ててきた。しかし、これらのデータセットは一般的に教師モデルから直接抽出されたものであり、静的な推論パターンのみを捉え、学生モデルと比較して大きな隔たりを残している。この固定化された教師由来データセットへの依存は、学習データの範囲を超えた新規またはより複雑な問題にモデルが適応する能力を制限するだけでなく、頑健な一般化に必要な反復的な深みを欠いている。これらの制限を克服するため、我々はMLLMsのための数学的自己進化フレームワークである\methodを提案する。従来のワンショットファインチューニングのパラダイムとは対照的に、\methodは推論、反省、報酬ベースのフィードバックからなるサイクルを通じてモデルを反復的に洗練させる。具体的には、前段階の推論から得られた正しい推論経路を組み込み、専門的な結果報酬モデル(ORM)からの反省を統合することによる反復的ファインチューニングを活用する。\methodの有効性を検証するため、一連の挑戦的ベンチマークで評価を行い、バックボーンモデルを大幅に上回る性能向上を示す。特にMathVL-testにおける実験結果は、オープンソースのマルチモーダル数学推論モデルQVQを凌駕している。コードとモデルはhttps://zheny2751\allowbreak-dotcom.github.io/\allowbreak MathSE.github.io/で公開されている。
English
Multimodal large language models (MLLMs) have demonstrated remarkable capabilities in vision-language answering tasks. Despite their strengths, these models often encounter challenges in achieving complex reasoning tasks such as mathematical problem-solving. Previous works have focused on fine-tuning on specialized mathematical datasets. However, these datasets are typically distilled directly from teacher models, which capture only static reasoning patterns and leaving substantial gaps compared to student models. This reliance on fixed teacher-derived datasets not only restricts the model's ability to adapt to novel or more intricate questions that extend beyond the confines of the training data, but also lacks the iterative depth needed for robust generalization. To overcome these limitations, we propose \method, a Mathematical Self-Evolving framework for MLLMs. In contrast to traditional one-shot fine-tuning paradigms, \method iteratively refines the model through cycles of inference, reflection, and reward-based feedback. Specifically, we leverage iterative fine-tuning by incorporating correct reasoning paths derived from previous-stage inference and integrating reflections from a specialized Outcome Reward Model (ORM). To verify the effectiveness of \method, we evaluate it on a suite of challenging benchmarks, demonstrating significant performance gains over backbone models. Notably, our experimental results on MathVL-test surpass the leading open-source multimodal mathematical reasoning model QVQ. Our code and models are available at https://zheny2751\allowbreak-dotcom.github.io/\allowbreak MathSE.github.io/.