Whiteboard-of-Thought: Pensando Passo a Passo Através de Modalidades
Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities
June 20, 2024
Autores: Sachit Menon, Richard Zemel, Carl Vondrick
cs.AI
Resumo
Quando confrontadas com questões que envolvem pensamento visual, os humanos naturalmente alternam modalidades de raciocínio, frequentemente formando imagens mentais ou criando auxílios visuais. Modelos de linguagem de grande escala têm mostrado resultados promissores em raciocínio aritmético e simbólico ao expressar raciocínios intermediários em texto como uma cadeia de pensamento, mas ainda lutam para estender essa capacidade para responder a consultas de texto que são facilmente resolvidas por raciocínio visual, mesmo com extensivo pré-treinamento multimodal. Introduzimos um método simples, o prompting de "quadro branco de pensamento", para desbloquear as capacidades de raciocínio visual de modelos de linguagem de grande escala multimodais através de diferentes modalidades. O prompting de quadro branco de pensamento fornece aos modelos de linguagem de grande escala multimodais um "quadro branco" metafórico para desenhar etapas de raciocínio como imagens, e então retorna essas imagens ao modelo para processamento adicional. Descobrimos que isso pode ser realizado sem demonstrações ou módulos especializados, em vez disso, aproveitando a capacidade existente dos modelos de escrever código com bibliotecas como Matplotlib e Turtle. Essa abordagem simples mostra resultados de ponta em quatro tarefas difíceis de linguagem natural que envolvem raciocínio visual e espacial. Identificamos múltiplos cenários onde o GPT-4o usando cadeia de pensamento falha dramaticamente, incluindo mais de um onde ele alcança 0% de precisão, enquanto o quadro branco de pensamento permite até 92% de precisão nesses mesmos cenários. Apresentamos uma exploração detalhada de onde a técnica tem sucesso, bem como suas fontes de erro.
English
When presented with questions involving visual thinking, humans naturally
switch reasoning modalities, often forming mental images or drawing visual
aids. Large language models have shown promising results in arithmetic and
symbolic reasoning by expressing intermediate reasoning in text as a chain of
thought, yet struggle to extend this capability to answer text queries that are
easily solved by visual reasoning, even with extensive multimodal pretraining.
We introduce a simple method, whiteboard-of-thought prompting, to unlock the
visual reasoning capabilities of multimodal large language models across
modalities. Whiteboard-of-thought prompting provides multimodal large language
models with a metaphorical `whiteboard' to draw out reasoning steps as images,
then returns these images back to the model for further processing. We find
this can be accomplished with no demonstrations or specialized modules, instead
leveraging models' existing ability to write code with libraries such as
Matplotlib and Turtle. This simple approach shows state-of-the-art results on
four difficult natural language tasks that involve visual and spatial
reasoning. We identify multiple settings where GPT-4o using chain-of-thought
fails dramatically, including more than one where it achieves 0% accuracy,
while whiteboard-of-thought enables up to 92% accuracy in these same
settings. We present a detailed exploration of where the technique succeeds as
well as its sources of error.