Critic-V: VLM批評家がマルチモーダル推論のVLMエラーを検出するのに役立つ
Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning
November 27, 2024
著者: Di Zhang, Jingdi Lei, Junxian Li, Xunzhi Wang, Yujie Liu, Zonglin Yang, Jiatong Li, Weida Wang, Suorong Yang, Jianbo Wu, Peng Ye, Wanli Ouyang, Dongzhan Zhou
cs.AI
要旨
ビジョン言語モデル(VLMs)は、多様なモーダル推論タスクにおいて顕著な進歩を示しています。しかしながら、しばしば幻覚的な画像理解や未熟な推論経路などの問題により、不正確または関連性のない応答を生成することがあります。これらの課題に対処するために、私たちはActor-Criticパラダイムに着想を得た新しいフレームワークであるCritic-Vを導入します。このフレームワークは、VLMsの推論能力を向上させるために設計されており、ReasonerとCriticという2つの独立したコンポーネントを統合することで、推論プロセスと批評プロセスを分離します。Reasonerは、視覚的およびテキスト入力に基づいて推論経路を生成する一方、Criticはこれらの経路を洗練するための建設的な批評を提供します。このアプローチでは、Reasonerはテキストプロンプトに従って推論応答を生成し、Criticからのフィードバックに基づいて方策として反復的に進化することができます。この相互作用プロセスは、Criticがスカラー報酬ではなく自然言語の批評を提供することで、複雑な推論タスクにおけるReasonerの能力を向上させるように理論的に駆動された強化学習フレームワークによって実現されました。Criticモデルは、ルールベースの報酬(RBR)によってランク付けされた批評の好みデータセットを活用して、その批評能力を向上させるためにDirect Preference Optimization(DPO)を使用してトレーニングされます。評価結果は、Critic-Vフレームワークが、GPT-4Vを含む既存の手法を8つのベンチマークのうち5つで大幅に上回り、特に推論の正確性と効率性に関して優れていることを示しています。Reasonerのための動的なテキストベースの方策と、好みに最適化されたCriticからの建設的なフィードバックを組み合わせることで、より信頼性が高くコンテキストに敏感な多様なモーダル推論プロセスが実現されます。私たちのアプローチは、自動運転や具現知能などの現実世界の推論重視の多様なモーダルアプリケーションにおいて、VLMsの信頼性を向上させ、パフォーマンスを向上させる有望な解決策を提供します。
English
Vision-language models~(VLMs) have shown remarkable advancements in
multimodal reasoning tasks. However, they still often generate inaccurate or
irrelevant responses due to issues like hallucinated image understandings or
unrefined reasoning paths. To address these challenges, we introduce Critic-V,
a novel framework inspired by the Actor-Critic paradigm to boost the reasoning
capability of VLMs. This framework decouples the reasoning process and critic
process by integrating two independent components: the Reasoner, which
generates reasoning paths based on visual and textual inputs, and the Critic,
which provides constructive critique to refine these paths. In this approach,
the Reasoner generates reasoning responses according to text prompts, which can
evolve iteratively as a policy based on feedback from the Critic. This
interaction process was theoretically driven by a reinforcement learning
framework where the Critic offers natural language critiques instead of scalar
rewards, enabling more nuanced feedback to boost the Reasoner's capability on
complex reasoning tasks. The Critic model is trained using Direct Preference
Optimization (DPO), leveraging a preference dataset of critiques ranked by
Rule-based Reward(RBR) to enhance its critic capabilities. Evaluation results
show that the Critic-V framework significantly outperforms existing methods,
including GPT-4V, on 5 out of 8 benchmarks, especially regarding reasoning
accuracy and efficiency. Combining a dynamic text-based policy for the Reasoner
and constructive feedback from the preference-optimized Critic enables a more
reliable and context-sensitive multimodal reasoning process. Our approach
provides a promising solution to enhance the reliability of VLMs, improving
their performance in real-world reasoning-heavy multimodal applications such as
autonomous driving and embodied intelligence.Summary
AI-Generated Summary