Pizarrón Visual: El boceto como una cadena de pensamiento visual para modelos de lenguaje multimodal
Visual Sketchpad: Sketching as a Visual Chain of Thought for Multimodal Language Models
June 13, 2024
Autores: Yushi Hu, Weijia Shi, Xingyu Fu, Dan Roth, Mari Ostendorf, Luke Zettlemoyer, Noah A Smith, Ranjay Krishna
cs.AI
Resumen
Los humanos dibujan para facilitar el razonamiento: trazamos líneas auxiliares al resolver problemas de geometría; marcamos y encerramos en círculos al razonar sobre mapas; utilizamos bocetos para ampliar nuestras ideas y aliviar nuestra memoria de trabajo de capacidad limitada. Sin embargo, estas acciones están ausentes en los modelos de lenguaje multimodal (LM) actuales. Los paradigmas actuales de cadena de pensamiento y uso de herramientas solo emplean texto como pasos intermedios de razonamiento. En este trabajo, presentamos Sketchpad, un marco que proporciona a los LM multimodales un bloc de dibujo visual y herramientas para dibujar en él. El LM realiza planificación y razonamiento según los artefactos visuales que ha dibujado. A diferencia de trabajos anteriores, que utilizan modelos de texto a imagen para permitir que los LM dibujen, Sketchpad permite que los LM dibujen con líneas, cuadros, marcas, etc., lo cual es más cercano al boceto humano y facilita mejor el razonamiento. Sketchpad también puede utilizar modelos de visión especializados durante el proceso de dibujo (por ejemplo, dibujar cuadros delimitadores con modelos de detección de objetos, dibujar máscaras con modelos de segmentación), para mejorar aún más la percepción visual y el razonamiento. Experimentamos con una amplia gama de tareas matemáticas (incluyendo geometría, funciones, gráficos y ajedrez) y tareas complejas de razonamiento visual. Sketchpad mejora sustancialmente el rendimiento en todas las tareas sobre modelos base fuertes sin bocetos, obteniendo una ganancia promedio del 12.7% en tareas matemáticas y del 8.6% en tareas visuales. GPT-4o con Sketchpad establece un nuevo estado del arte en todas las tareas, incluyendo V*Bench (80.3%), razonamiento espacial BLINK (83.9%) y correspondencia visual (80.8%). Todos los códigos y datos están disponibles en https://visualsketchpad.github.io/.
English
Humans draw to facilitate reasoning: we draw auxiliary lines when solving
geometry problems; we mark and circle when reasoning on maps; we use sketches
to amplify our ideas and relieve our limited-capacity working memory. However,
such actions are missing in current multimodal language models (LMs). Current
chain-of-thought and tool-use paradigms only use text as intermediate reasoning
steps. In this work, we introduce Sketchpad, a framework that gives multimodal
LMs a visual sketchpad and tools to draw on the sketchpad. The LM conducts
planning and reasoning according to the visual artifacts it has drawn.
Different from prior work, which uses text-to-image models to enable LMs to
draw, Sketchpad enables LMs to draw with lines, boxes, marks, etc., which is
closer to human sketching and better facilitates reasoning. Sketchpad can also
use specialist vision models during the sketching process (e.g., draw bounding
boxes with object detection models, draw masks with segmentation models), to
further enhance visual perception and reasoning. We experiment with a wide
range of math tasks (including geometry, functions, graphs, and chess) and
complex visual reasoning tasks. Sketchpad substantially improves performance on
all tasks over strong base models with no sketching, yielding an average gain
of 12.7% on math tasks, and 8.6% on vision tasks. GPT-4o with Sketchpad sets a
new state of the art on all tasks, including V*Bench (80.3%), BLINK spatial
reasoning (83.9%), and visual correspondence (80.8%). All codes and data are in
https://visualsketchpad.github.io/.