Critic-V : Les critiques VLM aident à détecter les erreurs VLM dans le raisonnement multimodal.
Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning
November 27, 2024
Auteurs: Di Zhang, Jingdi Lei, Junxian Li, Xunzhi Wang, Yujie Liu, Zonglin Yang, Jiatong Li, Weida Wang, Suorong Yang, Jianbo Wu, Peng Ye, Wanli Ouyang, Dongzhan Zhou
cs.AI
Résumé
Les modèles vision-langage (VLM) ont montré des avancées remarquables dans les tâches de raisonnement multimodal. Cependant, ils génèrent encore souvent des réponses inexactes ou non pertinentes en raison de problèmes tels que des compréhensions d'image hallucinées ou des chemins de raisonnement non affinés. Pour relever ces défis, nous introduisons Critic-V, un nouveau cadre inspiré du paradigme Acteur-Critique pour renforcer la capacité de raisonnement des VLM. Ce cadre dissocie le processus de raisonnement et le processus critique en intégrant deux composants indépendants : le Raisonneur, qui génère des chemins de raisonnement basés sur des entrées visuelles et textuelles, et le Critique, qui fournit une critique constructive pour affiner ces chemins. Dans cette approche, le Raisonneur génère des réponses de raisonnement selon des instructions textuelles, qui peuvent évoluer de manière itérative en tant que politique basée sur les retours du Critique. Ce processus d'interaction est théoriquement basé sur un cadre d'apprentissage par renforcement où le Critique offre des critiques en langage naturel au lieu de récompenses scalaires, permettant des retours plus nuancés pour renforcer la capacité du Raisonneur sur des tâches de raisonnement complexes. Le modèle Critique est entraîné en utilisant l'Optimisation de Préférence Directe (DPO), exploitant un ensemble de données de préférences de critiques classées par Récompense Basée sur des Règles (RBR) pour améliorer ses capacités critiques. Les résultats d'évaluation montrent que le cadre Critic-V surpasse significativement les méthodes existantes, y compris GPT-4V, sur 5 des 8 références, notamment en ce qui concerne la précision et l'efficacité du raisonnement. En combinant une politique textuelle dynamique pour le Raisonneur et des retours constructifs du Critique optimisé par préférences, cela permet un processus de raisonnement multimodal plus fiable et sensible au contexte. Notre approche offre une solution prometteuse pour améliorer la fiabilité des VLM, améliorant leurs performances dans des applications multimodales exigeant un raisonnement intensif en temps réel telles que la conduite autonome et l'intelligence incarnée.
English
Vision-language models~(VLMs) have shown remarkable advancements in
multimodal reasoning tasks. However, they still often generate inaccurate or
irrelevant responses due to issues like hallucinated image understandings or
unrefined reasoning paths. To address these challenges, we introduce Critic-V,
a novel framework inspired by the Actor-Critic paradigm to boost the reasoning
capability of VLMs. This framework decouples the reasoning process and critic
process by integrating two independent components: the Reasoner, which
generates reasoning paths based on visual and textual inputs, and the Critic,
which provides constructive critique to refine these paths. In this approach,
the Reasoner generates reasoning responses according to text prompts, which can
evolve iteratively as a policy based on feedback from the Critic. This
interaction process was theoretically driven by a reinforcement learning
framework where the Critic offers natural language critiques instead of scalar
rewards, enabling more nuanced feedback to boost the Reasoner's capability on
complex reasoning tasks. The Critic model is trained using Direct Preference
Optimization (DPO), leveraging a preference dataset of critiques ranked by
Rule-based Reward(RBR) to enhance its critic capabilities. Evaluation results
show that the Critic-V framework significantly outperforms existing methods,
including GPT-4V, on 5 out of 8 benchmarks, especially regarding reasoning
accuracy and efficiency. Combining a dynamic text-based policy for the Reasoner
and constructive feedback from the preference-optimized Critic enables a more
reliable and context-sensitive multimodal reasoning process. Our approach
provides a promising solution to enhance the reliability of VLMs, improving
their performance in real-world reasoning-heavy multimodal applications such as
autonomous driving and embodied intelligence.Summary
AI-Generated Summary