ChatPaper.aiChatPaper

MathSE: 자기 진화적 반복 성찰과 보안 기반 미세 조정을 통한 다중 모달 수학적 추론 향상

MathSE: Improving Multimodal Mathematical Reasoning via Self-Evolving Iterative Reflection and Reward-Guided Fine-Tuning

November 10, 2025
저자: Jinhao Chen, Zhen Yang, Jianxin Shi, Tianyu Wo, Jie Tang
cs.AI

초록

멀티모달 대규모 언어 모델(MLLMs)은 시각-언어 질의응답 과제에서 뛰어난 능력을 입증해왔습니다. 그러나 이러한 모델들은 수학 문제 해결과 같은 복잡한 추론 과제를 달성하는 데 어려움을 겪는 경우가 많습니다. 기존 연구들은 전문화된 수학 데이터셋에 대한 미세 조정에 주력해왔습니다. 하지만 이러한 데이터셋들은 일반적으로 교사 모델에서 직접 추출된 것으로, 정적인 추론 패턴만을 포착하여 학생 모델과 비교 시 상당한 격차를 남깁니다. 고정된 교사 모델 기반 데이터셋에 대한 이러한 의존성은 훈련 데이터의 한계를 넘어서는 새로운 또는 더 복잡한 질문에 적응하는 모델의 능력을 제한할 뿐만 아니라, 강건한 일반화를 위해 필요한 반복적인 심층 학습이 부족합니다. 이러한 한계를 극복하기 위해 우리는 MLLM을 위한 수학적 자가 진화 프레임워크인 \method를 제안합니다. 기존의 일회성 미세 조정 패러다임과 달리, \method는 추론, 성찰, 그리고 보상 기반 피드백의 주기를 통해 모델을 반복적으로 정제합니다. 구체적으로, 이전 단계 추론에서 도출된 정확한 추론 경로를 통합하고 전문화된 결과 보상 모델(ORM)의 성찰을 통합하여 반복적 미세 조정을 강화합니다. \method의 효과를 검증하기 위해 우리는 일련의 도전적인 벤치마크에서 평가를 수행하여 백본 모델 대비 상당한 성능 향상을 입증합니다. 특히 MathVL-test에 대한 우리의 실험 결과는 오픈소스 멀티모달 수학 추론 모델인 QVQ를 능가합니다. 우리의 코드와 모델은 https://zheny2751\allowbreak-dotcom.github.io/\allowbreak MathSE.github.io/에서 이용 가능합니다.
English
Multimodal large language models (MLLMs) have demonstrated remarkable capabilities in vision-language answering tasks. Despite their strengths, these models often encounter challenges in achieving complex reasoning tasks such as mathematical problem-solving. Previous works have focused on fine-tuning on specialized mathematical datasets. However, these datasets are typically distilled directly from teacher models, which capture only static reasoning patterns and leaving substantial gaps compared to student models. This reliance on fixed teacher-derived datasets not only restricts the model's ability to adapt to novel or more intricate questions that extend beyond the confines of the training data, but also lacks the iterative depth needed for robust generalization. To overcome these limitations, we propose \method, a Mathematical Self-Evolving framework for MLLMs. In contrast to traditional one-shot fine-tuning paradigms, \method iteratively refines the model through cycles of inference, reflection, and reward-based feedback. Specifically, we leverage iterative fine-tuning by incorporating correct reasoning paths derived from previous-stage inference and integrating reflections from a specialized Outcome Reward Model (ORM). To verify the effectiveness of \method, we evaluate it on a suite of challenging benchmarks, demonstrating significant performance gains over backbone models. Notably, our experimental results on MathVL-test surpass the leading open-source multimodal mathematical reasoning model QVQ. Our code and models are available at https://zheny2751\allowbreak-dotcom.github.io/\allowbreak MathSE.github.io/.
PDF123December 1, 2025