ChatPaper.aiChatPaper

Whiteboard-of-Thought: Stapsgewijs Denken over Modaliteiten Heen

Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities

June 20, 2024
Auteurs: Sachit Menon, Richard Zemel, Carl Vondrick
cs.AI

Samenvatting

Wanneer ze worden geconfronteerd met vragen die visueel denken vereisen, schakelen mensen van nature tussen redeneermodi, waarbij ze vaak mentale beelden vormen of visuele hulpmiddelen tekenen. Grote taalmodelmodellen hebben veelbelovende resultaten getoond bij rekenkundig en symbolisch redeneren door tussenliggende redeneringen in tekst uit te drukken als een keten van gedachten, maar hebben moeite om deze vaardigheid uit te breiden naar tekstuele vragen die eenvoudig op te lossen zijn door visueel redeneren, zelfs met uitgebreide multimodale voorafgaande training. We introduceren een eenvoudige methode, genaamd whiteboard-of-thought prompting, om de visuele redeneervaardigheden van multimodale grote taalmodelmodellen over verschillende modaliteiten heen te ontgrendelen. Whiteboard-of-thought prompting biedt multimodale grote taalmodelmodellen een metaforisch 'whiteboard' om redeneerstappen als afbeeldingen uit te tekenen, en geeft deze afbeeldingen vervolgens terug aan het model voor verdere verwerking. We ontdekken dat dit kan worden bereikt zonder demonstraties of gespecialiseerde modules, maar door gebruik te maken van de bestaande mogelijkheden van modellen om code te schrijven met bibliotheken zoals Matplotlib en Turtle. Deze eenvoudige aanpak toont state-of-the-art resultaten op vier moeilijke natuurlijke taal taken die visueel en ruimtelijk redeneren vereisen. We identificeren meerdere situaties waarin GPT-4o met behulp van chain-of-thought dramatisch faalt, waaronder meer dan één situatie waarin het een nauwkeurigheid van 0% bereikt, terwijl whiteboard-of-thought in dezelfde situaties een nauwkeurigheid van tot wel 92% mogelijk maakt. We presenteren een gedetailleerde verkenning van waar de techniek slaagt, evenals de bronnen van fouten.
English
When presented with questions involving visual thinking, humans naturally switch reasoning modalities, often forming mental images or drawing visual aids. Large language models have shown promising results in arithmetic and symbolic reasoning by expressing intermediate reasoning in text as a chain of thought, yet struggle to extend this capability to answer text queries that are easily solved by visual reasoning, even with extensive multimodal pretraining. We introduce a simple method, whiteboard-of-thought prompting, to unlock the visual reasoning capabilities of multimodal large language models across modalities. Whiteboard-of-thought prompting provides multimodal large language models with a metaphorical `whiteboard' to draw out reasoning steps as images, then returns these images back to the model for further processing. We find this can be accomplished with no demonstrations or specialized modules, instead leveraging models' existing ability to write code with libraries such as Matplotlib and Turtle. This simple approach shows state-of-the-art results on four difficult natural language tasks that involve visual and spatial reasoning. We identify multiple settings where GPT-4o using chain-of-thought fails dramatically, including more than one where it achieves 0% accuracy, while whiteboard-of-thought enables up to 92% accuracy in these same settings. We present a detailed exploration of where the technique succeeds as well as its sources of error.
PDF281December 2, 2024