Critic-V : Les critiques VLM aident à détecter les erreurs VLM dans le raisonnement multimodal.Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning
Les modèles vision-langage (VLM) ont montré des avancées remarquables dans les tâches de raisonnement multimodal. Cependant, ils génèrent encore souvent des réponses inexactes ou non pertinentes en raison de problèmes tels que des compréhensions d'image hallucinées ou des chemins de raisonnement non affinés. Pour relever ces défis, nous introduisons Critic-V, un nouveau cadre inspiré du paradigme Acteur-Critique pour renforcer la capacité de raisonnement des VLM. Ce cadre dissocie le processus de raisonnement et le processus critique en intégrant deux composants indépendants : le Raisonneur, qui génère des chemins de raisonnement basés sur des entrées visuelles et textuelles, et le Critique, qui fournit une critique constructive pour affiner ces chemins. Dans cette approche, le Raisonneur génère des réponses de raisonnement selon des instructions textuelles, qui peuvent évoluer de manière itérative en tant que politique basée sur les retours du Critique. Ce processus d'interaction est théoriquement basé sur un cadre d'apprentissage par renforcement où le Critique offre des critiques en langage naturel au lieu de récompenses scalaires, permettant des retours plus nuancés pour renforcer la capacité du Raisonneur sur des tâches de raisonnement complexes. Le modèle Critique est entraîné en utilisant l'Optimisation de Préférence Directe (DPO), exploitant un ensemble de données de préférences de critiques classées par Récompense Basée sur des Règles (RBR) pour améliorer ses capacités critiques. Les résultats d'évaluation montrent que le cadre Critic-V surpasse significativement les méthodes existantes, y compris GPT-4V, sur 5 des 8 références, notamment en ce qui concerne la précision et l'efficacité du raisonnement. En combinant une politique textuelle dynamique pour le Raisonneur et des retours constructifs du Critique optimisé par préférences, cela permet un processus de raisonnement multimodal plus fiable et sensible au contexte. Notre approche offre une solution prometteuse pour améliorer la fiabilité des VLM, améliorant leurs performances dans des applications multimodales exigeant un raisonnement intensif en temps réel telles que la conduite autonome et l'intelligence incarnée.