ChatPaper.aiChatPaper

Pizarra-de-Pensamiento: Pensamiento Paso a Paso a través de Modalidades

Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities

June 20, 2024
Autores: Sachit Menon, Richard Zemel, Carl Vondrick
cs.AI

Resumen

Cuando se enfrentan a preguntas que involucran pensamiento visual, los humanos cambian naturalmente de modalidad de razonamiento, a menudo formando imágenes mentales o dibujando ayudas visuales. Los modelos de lenguaje grandes han mostrado resultados prometedores en razonamiento aritmético y simbólico al expresar el razonamiento intermedio en texto como una cadena de pensamiento, pero luchan por extender esta capacidad para responder consultas de texto que se resuelven fácilmente mediante razonamiento visual, incluso con un extenso entrenamiento multimodal. Introducimos un método simple, el prompting de pizarra de pensamiento, para desbloquear las capacidades de razonamiento visual de los modelos de lenguaje grandes multimodales a través de diferentes modalidades. El prompting de pizarra de pensamiento proporciona a los modelos de lenguaje grandes multimodales una `pizarra' metafórica para dibujar los pasos de razonamiento como imágenes, y luego devuelve estas imágenes al modelo para su posterior procesamiento. Descubrimos que esto se puede lograr sin demostraciones o módulos especializados, aprovechando en su lugar la capacidad existente de los modelos para escribir código con bibliotecas como Matplotlib y Turtle. Este enfoque simple muestra resultados de vanguardia en cuatro tareas difíciles de lenguaje natural que involucran razonamiento visual y espacial. Identificamos múltiples escenarios donde GPT-4o usando cadena de pensamiento falla dramáticamente, incluyendo más de uno donde alcanza un 0% de precisión, mientras que la pizarra de pensamiento permite alcanzar hasta un 92% de precisión en estos mismos escenarios. Presentamos una exploración detallada de dónde la técnica tiene éxito, así como sus fuentes de error.
English
When presented with questions involving visual thinking, humans naturally switch reasoning modalities, often forming mental images or drawing visual aids. Large language models have shown promising results in arithmetic and symbolic reasoning by expressing intermediate reasoning in text as a chain of thought, yet struggle to extend this capability to answer text queries that are easily solved by visual reasoning, even with extensive multimodal pretraining. We introduce a simple method, whiteboard-of-thought prompting, to unlock the visual reasoning capabilities of multimodal large language models across modalities. Whiteboard-of-thought prompting provides multimodal large language models with a metaphorical `whiteboard' to draw out reasoning steps as images, then returns these images back to the model for further processing. We find this can be accomplished with no demonstrations or specialized modules, instead leveraging models' existing ability to write code with libraries such as Matplotlib and Turtle. This simple approach shows state-of-the-art results on four difficult natural language tasks that involve visual and spatial reasoning. We identify multiple settings where GPT-4o using chain-of-thought fails dramatically, including more than one where it achieves 0% accuracy, while whiteboard-of-thought enables up to 92% accuracy in these same settings. We present a detailed exploration of where the technique succeeds as well as its sources of error.

Summary

AI-Generated Summary

PDF291December 2, 2024