BBA: Bi-Modale Gedragsafstemming voor Redeneren met Grote Visueel-Taalmodellen
BBA: Bi-Modal Behavioral Alignment for Reasoning with Large Vision-Language Models
February 21, 2024
Auteurs: Xueliang Zhao, Xinting Huang, Tingchen Fu, Qintong Li, Shansan Gong, Lemao Liu, Wei Bi, Lingpeng Kong
cs.AI
Samenvatting
Multimodale redenering vormt een cruciale vaardigheid voor grote visueel-taalkundige modellen (LVLMs). De integratie met Domeinspecifieke Talen (DSL), die nauwkeurige visuele representaties bieden, stelt deze modellen in staat om nauwkeuriger te redeneren in complexe en professionele domeinen. Echter, de standaard Chain-of-Thought (CoT) prompting-methode ondervindt problemen bij het effectief benutten van de unieke sterke punten van visuele en DSL-representaties, voornamelijk vanwege hun verschillende redeneermechanismen. Daarnaast schiet het vaak tekort in het aanpakken van cruciale stappen in meerstaps redeneertaken. Om deze uitdagingen te verminderen, introduceren we de Bi-Modale Gedragsafstemming (BBA) prompting-methode, ontworpen om het potentieel van DSL te maximaliseren bij het versterken van complexe multimodale redeneertaken. Deze methode begint door LVLMs te begeleiden bij het creëren van afzonderlijke redeneerketens voor visuele en DSL-representaties. Vervolgens worden deze ketens afgestemd door eventuele inconsistenties aan te pakken, waardoor een samenhangende integratie van gedragingen uit verschillende modaliteiten wordt bereikt. Onze experimenten tonen aan dat BBA de prestaties van GPT-4V(ision) aanzienlijk verbetert bij het oplossen van geometrieproblemen (28,34% tot 34,22%), het voorspellen van positionele voordelen in schaken (42,08% tot 46,99%) en het voorspellen van moleculaire eigenschappen (77,47% tot 83,52%).
English
Multimodal reasoning stands as a pivotal capability for large vision-language
models (LVLMs). The integration with Domain-Specific Languages (DSL), offering
precise visual representations, equips these models with the opportunity to
execute more accurate reasoning in complex and professional domains. However,
the vanilla Chain-of-Thought (CoT) prompting method faces challenges in
effectively leveraging the unique strengths of visual and DSL representations,
primarily due to their differing reasoning mechanisms. Additionally, it often
falls short in addressing critical steps in multi-step reasoning tasks. To
mitigate these challenges, we introduce the Bi-Modal
Behavioral Alignment (BBA) prompting method, designed
to maximize the potential of DSL in augmenting complex multi-modal reasoning
tasks. This method initiates by guiding LVLMs to create separate reasoning
chains for visual and DSL representations. Subsequently, it aligns these chains
by addressing any inconsistencies, thus achieving a cohesive integration of
behaviors from different modalities. Our experiments demonstrate that BBA
substantially improves the performance of GPT-4V(ision) on geometry problem
solving (28.34% to 34.22%), chess positional advantage prediction
(42.08% to 46.99%) and molecular property prediction (77.47% to
83.52%).