BBA: Bi-Modale Gedragsafstemming voor Redeneren met Grote Visueel-Taalmodellen

Samenvatting

Multimodale redenering vormt een cruciale vaardigheid voor grote visueel-taalkundige modellen (LVLMs). De integratie met Domeinspecifieke Talen (DSL), die nauwkeurige visuele representaties bieden, stelt deze modellen in staat om nauwkeuriger te redeneren in complexe en professionele domeinen. Echter, de standaard Chain-of-Thought (CoT) prompting-methode ondervindt problemen bij het effectief benutten van de unieke sterke punten van visuele en DSL-representaties, voornamelijk vanwege hun verschillende redeneermechanismen. Daarnaast schiet het vaak tekort in het aanpakken van cruciale stappen in meerstaps redeneertaken. Om deze uitdagingen te verminderen, introduceren we de Bi-Modale Gedragsafstemming (BBA) prompting-methode, ontworpen om het potentieel van DSL te maximaliseren bij het versterken van complexe multimodale redeneertaken. Deze methode begint door LVLMs te begeleiden bij het creëren van afzonderlijke redeneerketens voor visuele en DSL-representaties. Vervolgens worden deze ketens afgestemd door eventuele inconsistenties aan te pakken, waardoor een samenhangende integratie van gedragingen uit verschillende modaliteiten wordt bereikt. Onze experimenten tonen aan dat BBA de prestaties van GPT-4V(ision) aanzienlijk verbetert bij het oplossen van geometrieproblemen (28,34% tot 34,22%), het voorspellen van positionele voordelen in schaken (42,08% tot 46,99%) en het voorspellen van moleculaire eigenschappen (77,47% tot 83,52%).

English

Multimodal reasoning stands as a pivotal capability for large vision-language models (LVLMs). The integration with Domain-Specific Languages (DSL), offering precise visual representations, equips these models with the opportunity to execute more accurate reasoning in complex and professional domains. However, the vanilla Chain-of-Thought (CoT) prompting method faces challenges in effectively leveraging the unique strengths of visual and DSL representations, primarily due to their differing reasoning mechanisms. Additionally, it often falls short in addressing critical steps in multi-step reasoning tasks. To mitigate these challenges, we introduce the Bi-Modal Behavioral Alignment (BBA) prompting method, designed to maximize the potential of DSL in augmenting complex multi-modal reasoning tasks. This method initiates by guiding LVLMs to create separate reasoning chains for visual and DSL representations. Subsequently, it aligns these chains by addressing any inconsistencies, thus achieving a cohesive integration of behaviors from different modalities. Our experiments demonstrate that BBA substantially improves the performance of GPT-4V(ision) on geometry problem solving (28.34% to 34.22%), chess positional advantage prediction (42.08% to 46.99%) and molecular property prediction (77.47% to 83.52%).

BBA: Bi-Modale Gedragsafstemming voor Redeneren met Grote Visueel-Taalmodellen

BBA: Bi-Modal Behavioral Alignment for Reasoning with Large Vision-Language Models

Samenvatting

Support