Pizarrón Visual: El boceto como una cadena de pensamiento visual para modelos de lenguaje multimodal

Resumen

Los humanos dibujan para facilitar el razonamiento: trazamos líneas auxiliares al resolver problemas de geometría; marcamos y encerramos en círculos al razonar sobre mapas; utilizamos bocetos para ampliar nuestras ideas y aliviar nuestra memoria de trabajo de capacidad limitada. Sin embargo, estas acciones están ausentes en los modelos de lenguaje multimodal (LM) actuales. Los paradigmas actuales de cadena de pensamiento y uso de herramientas solo emplean texto como pasos intermedios de razonamiento. En este trabajo, presentamos Sketchpad, un marco que proporciona a los LM multimodales un bloc de dibujo visual y herramientas para dibujar en él. El LM realiza planificación y razonamiento según los artefactos visuales que ha dibujado. A diferencia de trabajos anteriores, que utilizan modelos de texto a imagen para permitir que los LM dibujen, Sketchpad permite que los LM dibujen con líneas, cuadros, marcas, etc., lo cual es más cercano al boceto humano y facilita mejor el razonamiento. Sketchpad también puede utilizar modelos de visión especializados durante el proceso de dibujo (por ejemplo, dibujar cuadros delimitadores con modelos de detección de objetos, dibujar máscaras con modelos de segmentación), para mejorar aún más la percepción visual y el razonamiento. Experimentamos con una amplia gama de tareas matemáticas (incluyendo geometría, funciones, gráficos y ajedrez) y tareas complejas de razonamiento visual. Sketchpad mejora sustancialmente el rendimiento en todas las tareas sobre modelos base fuertes sin bocetos, obteniendo una ganancia promedio del 12.7% en tareas matemáticas y del 8.6% en tareas visuales. GPT-4o con Sketchpad establece un nuevo estado del arte en todas las tareas, incluyendo V*Bench (80.3%), razonamiento espacial BLINK (83.9%) y correspondencia visual (80.8%). Todos los códigos y datos están disponibles en https://visualsketchpad.github.io/.

English

Humans draw to facilitate reasoning: we draw auxiliary lines when solving geometry problems; we mark and circle when reasoning on maps; we use sketches to amplify our ideas and relieve our limited-capacity working memory. However, such actions are missing in current multimodal language models (LMs). Current chain-of-thought and tool-use paradigms only use text as intermediate reasoning steps. In this work, we introduce Sketchpad, a framework that gives multimodal LMs a visual sketchpad and tools to draw on the sketchpad. The LM conducts planning and reasoning according to the visual artifacts it has drawn. Different from prior work, which uses text-to-image models to enable LMs to draw, Sketchpad enables LMs to draw with lines, boxes, marks, etc., which is closer to human sketching and better facilitates reasoning. Sketchpad can also use specialist vision models during the sketching process (e.g., draw bounding boxes with object detection models, draw masks with segmentation models), to further enhance visual perception and reasoning. We experiment with a wide range of math tasks (including geometry, functions, graphs, and chess) and complex visual reasoning tasks. Sketchpad substantially improves performance on all tasks over strong base models with no sketching, yielding an average gain of 12.7% on math tasks, and 8.6% on vision tasks. GPT-4o with Sketchpad sets a new state of the art on all tasks, including V*Bench (80.3%), BLINK spatial reasoning (83.9%), and visual correspondence (80.8%). All codes and data are in https://visualsketchpad.github.io/.

Pizarrón Visual: El boceto como una cadena de pensamiento visual para modelos de lenguaje multimodal

Visual Sketchpad: Sketching as a Visual Chain of Thought for Multimodal Language Models

Resumen

Support