Critic-V: VLM批評家がマルチモーダル推論のVLMエラーを検出するのに役立つCritic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning
ビジョン言語モデル(VLMs)は、多様なモーダル推論タスクにおいて顕著な進歩を示しています。しかしながら、しばしば幻覚的な画像理解や未熟な推論経路などの問題により、不正確または関連性のない応答を生成することがあります。これらの課題に対処するために、私たちはActor-Criticパラダイムに着想を得た新しいフレームワークであるCritic-Vを導入します。このフレームワークは、VLMsの推論能力を向上させるために設計されており、ReasonerとCriticという2つの独立したコンポーネントを統合することで、推論プロセスと批評プロセスを分離します。Reasonerは、視覚的およびテキスト入力に基づいて推論経路を生成する一方、Criticはこれらの経路を洗練するための建設的な批評を提供します。このアプローチでは、Reasonerはテキストプロンプトに従って推論応答を生成し、Criticからのフィードバックに基づいて方策として反復的に進化することができます。この相互作用プロセスは、Criticがスカラー報酬ではなく自然言語の批評を提供することで、複雑な推論タスクにおけるReasonerの能力を向上させるように理論的に駆動された強化学習フレームワークによって実現されました。Criticモデルは、ルールベースの報酬(RBR)によってランク付けされた批評の好みデータセットを活用して、その批評能力を向上させるためにDirect Preference Optimization(DPO)を使用してトレーニングされます。評価結果は、Critic-Vフレームワークが、GPT-4Vを含む既存の手法を8つのベンチマークのうち5つで大幅に上回り、特に推論の正確性と効率性に関して優れていることを示しています。Reasonerのための動的なテキストベースの方策と、好みに最適化されたCriticからの建設的なフィードバックを組み合わせることで、より信頼性が高くコンテキストに敏感な多様なモーダル推論プロセスが実現されます。私たちのアプローチは、自動運転や具現知能などの現実世界の推論重視の多様なモーダルアプリケーションにおいて、VLMsの信頼性を向上させ、パフォーマンスを向上させる有望な解決策を提供します。