번역이 포함된 일일 선별된 AI 연구 논문
대규모 추론 모델의 최근 발전은 이러한 능력을 다중모달 영역으로 확장하려는 관심을 고조시키고 있습니다. 그러나 시각적 추론 분야에서의 주목할 만한 진전에도 불구하고, 투명하고 재현 가능한 데이터 큐레이션 및 훈련 전략의 부족은 확장 가능한 연구의 주요 장벽으로 남아 있습니다. 본 연구에서는 지도 미세조정(Supervised Fine-Tuning, SFT)과 강화 학습(Reinforcement Learning, RL)을 아우르는 완전히 투명한 2단계 다중모달 추론 레시피인 OpenMMReasoner를 소개합니다. SFT 단계에서는 엄격한 단계별 검증을 통해 874K 샘플의 콜드 스타트 데이터셋을 구축하여 추론 능력의 견고한 기반을 제공합니다. 이후 RL 단계에서는 다양한 도메인에 걸친 74K 샘플 데이터셋을 활용하여 이러한 능력을 더욱 예리하고 안정적으로 다듬어, 더욱 견고하고 효율적인 학습 과정을 구현합니다. 광범위한 평가를 통해 우리의 훈련 레시피가 강력한 베이스라인을 능가할 뿐만 아니라, 다중모달 추론 성능을 형성하는 데 있어 데이터 품질과 훈련 설계의 중요성을 부각시킴을 입증했습니다. 특히, 우리의 방법은 9개의 다중모달 추론 벤치마크에서 Qwen2.5-VL-7B-Instruct 베이스라인 대비 11.6%의 성능 향상을 달성하여, 향후 대규모 다중모달 추론 연구를 위한 견고한 실증적 기반을 마련했습니다. 우리는 모든 코드, 파이프라인 및 데이터를 https://github.com/EvolvingLMMs-Lab/OpenMMReasoner에서 오픈소스로 공개했습니다.