BBA : Alignement Comportemental Bi-Modal pour le Raisonnement avec les Grands Modèles Vision-Langage
BBA: Bi-Modal Behavioral Alignment for Reasoning with Large Vision-Language Models
February 21, 2024
Auteurs: Xueliang Zhao, Xinting Huang, Tingchen Fu, Qintong Li, Shansan Gong, Lemao Liu, Wei Bi, Lingpeng Kong
cs.AI
Résumé
Le raisonnement multimodal constitue une capacité essentielle pour les grands modèles vision-langage (LVLMs). L'intégration avec les langages spécifiques à un domaine (DSL), offrant des représentations visuelles précises, permet à ces modèles d'exécuter un raisonnement plus précis dans des domaines complexes et spécialisés. Cependant, la méthode classique de prompting en chaîne de pensée (CoT) rencontre des difficultés à exploiter efficacement les forces uniques des représentations visuelles et DSL, principalement en raison de leurs mécanismes de raisonnement distincts. De plus, elle échoue souvent à aborder les étapes critiques dans les tâches de raisonnement à plusieurs étapes. Pour atténuer ces défis, nous introduisons la méthode de prompting d'Alignement Comportemental Bi-Modal (BBA), conçue pour maximiser le potentiel des DSL dans l'amélioration des tâches complexes de raisonnement multimodal. Cette méthode commence par guider les LVLMs à créer des chaînes de raisonnement distinctes pour les représentations visuelles et DSL. Ensuite, elle aligne ces chaînes en résolvant les incohérences, permettant ainsi une intégration cohérente des comportements issus de différentes modalités. Nos expériences démontrent que BBA améliore significativement les performances de GPT-4V(ision) dans la résolution de problèmes de géométrie (de 28,34% à 34,22%), la prédiction d'avantage positionnel aux échecs (de 42,08% à 46,99%) et la prédiction de propriétés moléculaires (de 77,47% à 83,52%).
English
Multimodal reasoning stands as a pivotal capability for large vision-language
models (LVLMs). The integration with Domain-Specific Languages (DSL), offering
precise visual representations, equips these models with the opportunity to
execute more accurate reasoning in complex and professional domains. However,
the vanilla Chain-of-Thought (CoT) prompting method faces challenges in
effectively leveraging the unique strengths of visual and DSL representations,
primarily due to their differing reasoning mechanisms. Additionally, it often
falls short in addressing critical steps in multi-step reasoning tasks. To
mitigate these challenges, we introduce the Bi-Modal
Behavioral Alignment (BBA) prompting method, designed
to maximize the potential of DSL in augmenting complex multi-modal reasoning
tasks. This method initiates by guiding LVLMs to create separate reasoning
chains for visual and DSL representations. Subsequently, it aligns these chains
by addressing any inconsistencies, thus achieving a cohesive integration of
behaviors from different modalities. Our experiments demonstrate that BBA
substantially improves the performance of GPT-4V(ision) on geometry problem
solving (28.34% to 34.22%), chess positional advantage prediction
(42.08% to 46.99%) and molecular property prediction (77.47% to
83.52%).Summary
AI-Generated Summary