ChatPaper.aiChatPaper

Доска мыслей: мышление шаг за шагом через различные модальности

Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities

June 20, 2024
Авторы: Sachit Menon, Richard Zemel, Carl Vondrick
cs.AI

Аннотация

При столкновении с вопросами, связанными с визуальным мышлением, люди естественным образом переключают модальности рассуждения, часто формируя ментальные образы или создавая визуальные вспомогательные средства. Большие языковые модели показали многообещающие результаты в арифметике и символическом рассуждении, выражая промежуточное рассуждение в тексте как цепочку мыслей, однако испытывают трудности в расширении этой способности для ответов на текстовые запросы, которые легко решаются визуальным рассуждением, даже с обширным мультимодальным предварительным обучением. Мы представляем простой метод, под названием "доска мыслей", для разблокировки визуальных рассуждений мультимодальных больших языковых моделей в различных модальностях. "Доска мыслей" предоставляет мультимодальным большим языковым моделям метафорическую "доску", чтобы изобразить шаги рассуждения в виде изображений, затем возвращает эти изображения обратно модели для дальнейшей обработки. Мы обнаружили, что это можно сделать без демонстраций или специализированных модулей, вместо этого используя существующую способность моделей писать код с библиотеками, такими как Matplotlib и Turtle. Этот простой подход показывает результаты, соответствующие передовому уровню, на четырех сложных задачах естественного языка, которые включают визуальное и пространственное рассуждение. Мы выявляем несколько ситуаций, в которых GPT-4o с использованием цепочки мыслей терпит крах, включая более одной, где он достигает точности 0%, в то время как "доска мыслей" позволяет достичь до 92% точности в этих же ситуациях. Мы представляем подробное исследование того, где техника успешна, а также ее источники ошибок.
English
When presented with questions involving visual thinking, humans naturally switch reasoning modalities, often forming mental images or drawing visual aids. Large language models have shown promising results in arithmetic and symbolic reasoning by expressing intermediate reasoning in text as a chain of thought, yet struggle to extend this capability to answer text queries that are easily solved by visual reasoning, even with extensive multimodal pretraining. We introduce a simple method, whiteboard-of-thought prompting, to unlock the visual reasoning capabilities of multimodal large language models across modalities. Whiteboard-of-thought prompting provides multimodal large language models with a metaphorical `whiteboard' to draw out reasoning steps as images, then returns these images back to the model for further processing. We find this can be accomplished with no demonstrations or specialized modules, instead leveraging models' existing ability to write code with libraries such as Matplotlib and Turtle. This simple approach shows state-of-the-art results on four difficult natural language tasks that involve visual and spatial reasoning. We identify multiple settings where GPT-4o using chain-of-thought fails dramatically, including more than one where it achieves 0% accuracy, while whiteboard-of-thought enables up to 92% accuracy in these same settings. We present a detailed exploration of where the technique succeeds as well as its sources of error.

Summary

AI-Generated Summary

PDF291December 2, 2024