ChatPaper.aiChatPaper

Whiteboard-of-Thought: Pensando Passo a Passo Através de Modalidades

Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities

June 20, 2024
Autores: Sachit Menon, Richard Zemel, Carl Vondrick
cs.AI

Resumo

Quando confrontadas com questões que envolvem pensamento visual, os humanos naturalmente alternam modalidades de raciocínio, frequentemente formando imagens mentais ou criando auxílios visuais. Modelos de linguagem de grande escala têm mostrado resultados promissores em raciocínio aritmético e simbólico ao expressar raciocínios intermediários em texto como uma cadeia de pensamento, mas ainda lutam para estender essa capacidade para responder a consultas de texto que são facilmente resolvidas por raciocínio visual, mesmo com extensivo pré-treinamento multimodal. Introduzimos um método simples, o prompting de "quadro branco de pensamento", para desbloquear as capacidades de raciocínio visual de modelos de linguagem de grande escala multimodais através de diferentes modalidades. O prompting de quadro branco de pensamento fornece aos modelos de linguagem de grande escala multimodais um "quadro branco" metafórico para desenhar etapas de raciocínio como imagens, e então retorna essas imagens ao modelo para processamento adicional. Descobrimos que isso pode ser realizado sem demonstrações ou módulos especializados, em vez disso, aproveitando a capacidade existente dos modelos de escrever código com bibliotecas como Matplotlib e Turtle. Essa abordagem simples mostra resultados de ponta em quatro tarefas difíceis de linguagem natural que envolvem raciocínio visual e espacial. Identificamos múltiplos cenários onde o GPT-4o usando cadeia de pensamento falha dramaticamente, incluindo mais de um onde ele alcança 0% de precisão, enquanto o quadro branco de pensamento permite até 92% de precisão nesses mesmos cenários. Apresentamos uma exploração detalhada de onde a técnica tem sucesso, bem como suas fontes de erro.
English
When presented with questions involving visual thinking, humans naturally switch reasoning modalities, often forming mental images or drawing visual aids. Large language models have shown promising results in arithmetic and symbolic reasoning by expressing intermediate reasoning in text as a chain of thought, yet struggle to extend this capability to answer text queries that are easily solved by visual reasoning, even with extensive multimodal pretraining. We introduce a simple method, whiteboard-of-thought prompting, to unlock the visual reasoning capabilities of multimodal large language models across modalities. Whiteboard-of-thought prompting provides multimodal large language models with a metaphorical `whiteboard' to draw out reasoning steps as images, then returns these images back to the model for further processing. We find this can be accomplished with no demonstrations or specialized modules, instead leveraging models' existing ability to write code with libraries such as Matplotlib and Turtle. This simple approach shows state-of-the-art results on four difficult natural language tasks that involve visual and spatial reasoning. We identify multiple settings where GPT-4o using chain-of-thought fails dramatically, including more than one where it achieves 0% accuracy, while whiteboard-of-thought enables up to 92% accuracy in these same settings. We present a detailed exploration of where the technique succeeds as well as its sources of error.
PDF281December 2, 2024