Gedankentafel: Schrittweise Denken über Modalitäten hinweg
Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities
June 20, 2024
Autoren: Sachit Menon, Richard Zemel, Carl Vondrick
cs.AI
Zusammenfassung
Bei Fragen, die visuelles Denken erfordern, wechseln Menschen natürlich oft zwischen verschiedenen Denkweisen, bilden häufig mentale Bilder oder erstellen visuelle Hilfsmittel. Große Sprachmodelle haben vielversprechende Ergebnisse in arithmetischem und symbolischem Denken gezeigt, indem sie Zwischenschlüsse im Text als Gedankenfolge ausdrücken, kämpfen jedoch damit, diese Fähigkeit auf die Beantwortung von Textabfragen auszudehnen, die durch visuelles Denken leicht gelöst werden können, selbst bei umfangreicher multimodaler Vorabtrainierung. Wir stellen eine einfache Methode vor, das "Whiteboard-of-Thought-Prompting", um die visuellen Denkfähigkeiten großer multimodaler Sprachmodelle über Modalitäten hinweg freizusetzen. Das "Whiteboard-of-Thought-Prompting" bietet großen multimodalen Sprachmodellen eine metaphorische 'Tafel', um Denkschritte als Bilder darzustellen und diese Bilder dann dem Modell zur weiteren Verarbeitung zurückzugeben. Wir stellen fest, dass dies ohne Demonstrationen oder spezialisierte Module erreicht werden kann, indem stattdessen die vorhandene Fähigkeit der Modelle genutzt wird, Code mit Bibliotheken wie Matplotlib und Turtle zu schreiben. Dieser einfache Ansatz zeigt Spitzenleistung bei vier schwierigen natürlichsprachlichen Aufgaben, die visuelles und räumliches Denken erfordern. Wir identifizieren mehrere Szenarien, in denen GPT-4o mit der Gedankenfolgenmethode dramatisch scheitert, darunter mehr als eine, bei der eine Genauigkeit von 0% erreicht wird, während das "Whiteboard-of-Thought-Prompting" in diesen gleichen Szenarien bis zu 92% Genauigkeit ermöglicht. Wir präsentieren eine detaillierte Erkundung, in welchen Bereichen die Technik erfolgreich ist, sowie ihre Fehlerquellen.
English
When presented with questions involving visual thinking, humans naturally
switch reasoning modalities, often forming mental images or drawing visual
aids. Large language models have shown promising results in arithmetic and
symbolic reasoning by expressing intermediate reasoning in text as a chain of
thought, yet struggle to extend this capability to answer text queries that are
easily solved by visual reasoning, even with extensive multimodal pretraining.
We introduce a simple method, whiteboard-of-thought prompting, to unlock the
visual reasoning capabilities of multimodal large language models across
modalities. Whiteboard-of-thought prompting provides multimodal large language
models with a metaphorical `whiteboard' to draw out reasoning steps as images,
then returns these images back to the model for further processing. We find
this can be accomplished with no demonstrations or specialized modules, instead
leveraging models' existing ability to write code with libraries such as
Matplotlib and Turtle. This simple approach shows state-of-the-art results on
four difficult natural language tasks that involve visual and spatial
reasoning. We identify multiple settings where GPT-4o using chain-of-thought
fails dramatically, including more than one where it achieves 0% accuracy,
while whiteboard-of-thought enables up to 92% accuracy in these same
settings. We present a detailed exploration of where the technique succeeds as
well as its sources of error.Summary
AI-Generated Summary