Visuelle Skizzenblock: Skizzieren als visuelle Gedankenreihe für multimodale Sprachmodelle
Visual Sketchpad: Sketching as a Visual Chain of Thought for Multimodal Language Models
June 13, 2024
Autoren: Yushi Hu, Weijia Shi, Xingyu Fu, Dan Roth, Mari Ostendorf, Luke Zettlemoyer, Noah A Smith, Ranjay Krishna
cs.AI
Zusammenfassung
Menschen zeichnen, um das Denken zu erleichtern: Wir ziehen Hilfslinien, wenn wir geometrische Probleme lösen; wir markieren und umkreisen, wenn wir auf Karten argumentieren; wir verwenden Skizzen, um unsere Ideen zu verdeutlichen und unser begrenztes Arbeitsgedächtnis zu entlasten. Diese Aktionen fehlen jedoch in aktuellen multimodalen Sprachmodellen (LMs). Die aktuellen Denk- und Werkzeugnutzungsparadigmen verwenden nur Text als Zwischenschritte des Denkprozesses. In dieser Arbeit stellen wir Sketchpad vor, ein Framework, das multimodalen LMs einen visuellen Skizzenblock und Werkzeuge zum Zeichnen auf dem Skizzenblock bietet. Das LM plant und argumentiert gemäß den visuellen Artefakten, die es gezeichnet hat. Im Gegensatz zu früheren Arbeiten, die Text-zu-Bild-Modelle verwenden, um LMs zum Zeichnen zu befähigen, ermöglicht es Sketchpad LMs, mit Linien, Kästchen, Markierungen usw. zu zeichnen, was dem menschlichen Skizzieren näherkommt und das Denken besser unterstützt. Sketchpad kann auch spezialisierte Bildmodelle während des Skizzierens nutzen (z. B. Bounding Boxes mit Objekterkennungsmodellen zeichnen, Masken mit Segmentierungsmodellen zeichnen), um die visuelle Wahrnehmung und das Denken weiter zu verbessern. Wir experimentieren mit einer Vielzahl von mathematischen Aufgaben (einschließlich Geometrie, Funktionen, Graphen und Schach) und komplexen visuellen Denkaufgaben. Sketchpad verbessert die Leistung bei allen Aufgaben erheblich gegenüber starken Basismodellen ohne Skizzierung und erzielt einen durchschnittlichen Gewinn von 12,7% bei mathematischen Aufgaben und 8,6% bei visuellen Aufgaben. GPT-4o mit Sketchpad setzt einen neuen Stand der Technik bei allen Aufgaben, einschließlich V*Bench (80,3%), BLINK räumliches Denken (83,9%) und visuelle Korrespondenz (80,8%). Alle Codes und Daten finden sich unter https://visualsketchpad.github.io/.
English
Humans draw to facilitate reasoning: we draw auxiliary lines when solving
geometry problems; we mark and circle when reasoning on maps; we use sketches
to amplify our ideas and relieve our limited-capacity working memory. However,
such actions are missing in current multimodal language models (LMs). Current
chain-of-thought and tool-use paradigms only use text as intermediate reasoning
steps. In this work, we introduce Sketchpad, a framework that gives multimodal
LMs a visual sketchpad and tools to draw on the sketchpad. The LM conducts
planning and reasoning according to the visual artifacts it has drawn.
Different from prior work, which uses text-to-image models to enable LMs to
draw, Sketchpad enables LMs to draw with lines, boxes, marks, etc., which is
closer to human sketching and better facilitates reasoning. Sketchpad can also
use specialist vision models during the sketching process (e.g., draw bounding
boxes with object detection models, draw masks with segmentation models), to
further enhance visual perception and reasoning. We experiment with a wide
range of math tasks (including geometry, functions, graphs, and chess) and
complex visual reasoning tasks. Sketchpad substantially improves performance on
all tasks over strong base models with no sketching, yielding an average gain
of 12.7% on math tasks, and 8.6% on vision tasks. GPT-4o with Sketchpad sets a
new state of the art on all tasks, including V*Bench (80.3%), BLINK spatial
reasoning (83.9%), and visual correspondence (80.8%). All codes and data are in
https://visualsketchpad.github.io/.Summary
AI-Generated Summary