BBA : Alignement Comportemental Bi-Modal pour le Raisonnement avec les Grands Modèles Vision-Langage

papers.abstract

Le raisonnement multimodal constitue une capacité essentielle pour les grands modèles vision-langage (LVLMs). L'intégration avec les langages spécifiques à un domaine (DSL), offrant des représentations visuelles précises, permet à ces modèles d'exécuter un raisonnement plus précis dans des domaines complexes et spécialisés. Cependant, la méthode classique de prompting en chaîne de pensée (CoT) rencontre des difficultés à exploiter efficacement les forces uniques des représentations visuelles et DSL, principalement en raison de leurs mécanismes de raisonnement distincts. De plus, elle échoue souvent à aborder les étapes critiques dans les tâches de raisonnement à plusieurs étapes. Pour atténuer ces défis, nous introduisons la méthode de prompting d'Alignement Comportemental Bi-Modal (BBA), conçue pour maximiser le potentiel des DSL dans l'amélioration des tâches complexes de raisonnement multimodal. Cette méthode commence par guider les LVLMs à créer des chaînes de raisonnement distinctes pour les représentations visuelles et DSL. Ensuite, elle aligne ces chaînes en résolvant les incohérences, permettant ainsi une intégration cohérente des comportements issus de différentes modalités. Nos expériences démontrent que BBA améliore significativement les performances de GPT-4V(ision) dans la résolution de problèmes de géométrie (de 28,34% à 34,22%), la prédiction d'avantage positionnel aux échecs (de 42,08% à 46,99%) et la prédiction de propriétés moléculaires (de 77,47% à 83,52%).

English

Multimodal reasoning stands as a pivotal capability for large vision-language models (LVLMs). The integration with Domain-Specific Languages (DSL), offering precise visual representations, equips these models with the opportunity to execute more accurate reasoning in complex and professional domains. However, the vanilla Chain-of-Thought (CoT) prompting method faces challenges in effectively leveraging the unique strengths of visual and DSL representations, primarily due to their differing reasoning mechanisms. Additionally, it often falls short in addressing critical steps in multi-step reasoning tasks. To mitigate these challenges, we introduce the Bi-Modal Behavioral Alignment (BBA) prompting method, designed to maximize the potential of DSL in augmenting complex multi-modal reasoning tasks. This method initiates by guiding LVLMs to create separate reasoning chains for visual and DSL representations. Subsequently, it aligns these chains by addressing any inconsistencies, thus achieving a cohesive integration of behaviors from different modalities. Our experiments demonstrate that BBA substantially improves the performance of GPT-4V(ision) on geometry problem solving (28.34% to 34.22%), chess positional advantage prediction (42.08% to 46.99%) and molecular property prediction (77.47% to 83.52%).

BBA : Alignement Comportemental Bi-Modal pour le Raisonnement avec les Grands Modèles Vision-Langage

BBA: Bi-Modal Behavioral Alignment for Reasoning with Large Vision-Language Models

papers.abstract

Support