BBA: Bi-modale Verhaltensausrichtung für das Schließen mit großen Vision-Sprache-Modellen
BBA: Bi-Modal Behavioral Alignment for Reasoning with Large Vision-Language Models
February 21, 2024
Autoren: Xueliang Zhao, Xinting Huang, Tingchen Fu, Qintong Li, Shansan Gong, Lemao Liu, Wei Bi, Lingpeng Kong
cs.AI
Zusammenfassung
Multimodales Denken stellt eine entscheidende Fähigkeit für große Vision-Sprach-Modelle (LVLMs) dar. Die Integration mit domänenspezifischen Sprachen (DSL), die präzise visuelle Darstellungen bieten, ermöglicht es diesen Modellen, in komplexen und fachspezifischen Bereichen präzisere Schlussfolgerungen zu ziehen. Allerdings stößt die herkömmliche Chain-of-Thought (CoT)-Prompting-Methode auf Schwierigkeiten, die spezifischen Stärken visueller und DSL-Darstellungen effektiv zu nutzen, hauptsächlich aufgrund ihrer unterschiedlichen Denkmechanismen. Zudem gelingt es ihr oft nicht, kritische Schritte in mehrstufigen Denkaufgaben angemessen zu berücksichtigen. Um diese Herausforderungen zu bewältigen, führen wir die Bi-Modale Verhaltensabstimmung (BBA)-Prompting-Methode ein, die darauf abzielt, das Potenzial von DSL zur Verbesserung komplexer multimodaler Denkaufgaben voll auszuschöpfen. Diese Methode leitet LVLMs zunächst an, separate Denkketten für visuelle und DSL-Darstellungen zu erstellen. Anschließend werden diese Ketten durch die Behebung von Inkonsistenzen abgestimmt, wodurch eine kohärente Integration von Verhaltensweisen aus verschiedenen Modalitäten erreicht wird. Unsere Experimente zeigen, dass BBA die Leistung von GPT-4V(ision) bei der Lösung geometrischer Probleme (28,34 % auf 34,22 %), der Vorhersage von Positionsvorteilen im Schach (42,08 % auf 46,99 %) und der Vorhersage molekularer Eigenschaften (77,47 % auf 83,52 %) erheblich verbessert.
English
Multimodal reasoning stands as a pivotal capability for large vision-language
models (LVLMs). The integration with Domain-Specific Languages (DSL), offering
precise visual representations, equips these models with the opportunity to
execute more accurate reasoning in complex and professional domains. However,
the vanilla Chain-of-Thought (CoT) prompting method faces challenges in
effectively leveraging the unique strengths of visual and DSL representations,
primarily due to their differing reasoning mechanisms. Additionally, it often
falls short in addressing critical steps in multi-step reasoning tasks. To
mitigate these challenges, we introduce the Bi-Modal
Behavioral Alignment (BBA) prompting method, designed
to maximize the potential of DSL in augmenting complex multi-modal reasoning
tasks. This method initiates by guiding LVLMs to create separate reasoning
chains for visual and DSL representations. Subsequently, it aligns these chains
by addressing any inconsistencies, thus achieving a cohesive integration of
behaviors from different modalities. Our experiments demonstrate that BBA
substantially improves the performance of GPT-4V(ision) on geometry problem
solving (28.34% to 34.22%), chess positional advantage prediction
(42.08% to 46.99%) and molecular property prediction (77.47% to
83.52%).