翻訳付きの日次キュレーションされたAI研究論文
大規模推論モデルの最近の進展により、その能力をマルチモーダル領域に拡張することに対する関心が高まっている。しかし、視覚的推論における顕著な進歩にもかかわらず、透明性と再現性のあるデータキュレーションおよびトレーニング戦略の欠如が、スケーラブルな研究の主要な障壁となっている。本研究では、教師ありファインチューニング(SFT)と強化学習(RL)にまたがるマルチモーダル推論のための完全に透明な2段階のレシピであるOpenMMReasonerを紹介する。SFT段階では、厳密なステップバイステップの検証を経て構築された874Kサンプルのコールドスタートデータセットを提供し、推論能力の強固な基盤を築く。続くRL段階では、多様な領域にわたる74Kサンプルのデータセットを活用してこれらの能力をさらに研ぎ澄まし、安定化させることで、より堅牢で効率的な学習プロセスを実現する。広範な評価により、我々のトレーニングレシピが強力なベースラインを上回るだけでなく、データ品質とトレーニング設計がマルチモーダル推論性能を形成する上で重要な役割を果たすことが明らかになった。特に、我々の手法は、9つのマルチモーダル推論ベンチマークにおいてQwen2.5-VL-7B-Instructベースラインに対して11.6%の改善を達成し、将来の大規模マルチモーダル推論研究のための確固たる経験的基盤を確立した。我々は、すべてのコード、パイプライン、およびデータをhttps://github.com/EvolvingLMMs-Lab/OpenMMReasonerでオープンソース化した。