LLaVA-o1:ビジョン言語モデルが段階的に推論するLLaVA-o1: Let Vision Language Models Reason Step-by-Step
大規模言語モデルは、推論時間のスケーリングを通じて、特に推論能力の面で著しい進歩を示しており、OpenAIのo1などのモデルによって示されています。しかし、現在のビジョン・ランゲージ・モデル(VLM)は、複雑なビジュアル質問応答タスクを処理する際に特に体系的かつ構造化された推論を行うのに苦労することがよくあります。本研究では、自律的な多段階推論を実行するために設計された新しいVLMであるLLaVA-o1を紹介します。LLaVA-o1は、思考の連鎖には頼らず、要約、視覚的解釈、論理的推論、結論生成の各段階で独立して関与します。この構造化されたアプローチにより、LLaVA-o1は推論集中タスクにおいて精度の向上を達成します。これを達成するために、様々なビジュアル質問応答ソースからサンプルを統合し、構造化された推論注釈を提供するLLaVA-o1-100kデータセットを編纂します。さらに、推論時間の段階レベルのビームサーチ手法を提案し、効果的な推論時間のスケーリングを実現します。驚くべきことに、わずか100kのトレーニングサンプルとシンプルで効果的な推論時間スケーリング手法で、LLaVA-o1は、多様なマルチモーダル推論ベンチマークでベースモデルを8.9%上回るだけでなく、Gemini-1.5-pro、GPT-4o-mini、Llama-3.2-90B-Vision-Instructなどのより大きな、さらにはクローズドソースのモデルをも凌駕します。