Visuelle Skizzenblock: Skizzieren als visuelle Gedankenreihe für multimodale Sprachmodelle

papers.abstract

Menschen zeichnen, um das Denken zu erleichtern: Wir ziehen Hilfslinien, wenn wir geometrische Probleme lösen; wir markieren und umkreisen, wenn wir auf Karten argumentieren; wir verwenden Skizzen, um unsere Ideen zu verdeutlichen und unser begrenztes Arbeitsgedächtnis zu entlasten. Diese Aktionen fehlen jedoch in aktuellen multimodalen Sprachmodellen (LMs). Die aktuellen Denk- und Werkzeugnutzungsparadigmen verwenden nur Text als Zwischenschritte des Denkprozesses. In dieser Arbeit stellen wir Sketchpad vor, ein Framework, das multimodalen LMs einen visuellen Skizzenblock und Werkzeuge zum Zeichnen auf dem Skizzenblock bietet. Das LM plant und argumentiert gemäß den visuellen Artefakten, die es gezeichnet hat. Im Gegensatz zu früheren Arbeiten, die Text-zu-Bild-Modelle verwenden, um LMs zum Zeichnen zu befähigen, ermöglicht es Sketchpad LMs, mit Linien, Kästchen, Markierungen usw. zu zeichnen, was dem menschlichen Skizzieren näherkommt und das Denken besser unterstützt. Sketchpad kann auch spezialisierte Bildmodelle während des Skizzierens nutzen (z. B. Bounding Boxes mit Objekterkennungsmodellen zeichnen, Masken mit Segmentierungsmodellen zeichnen), um die visuelle Wahrnehmung und das Denken weiter zu verbessern. Wir experimentieren mit einer Vielzahl von mathematischen Aufgaben (einschließlich Geometrie, Funktionen, Graphen und Schach) und komplexen visuellen Denkaufgaben. Sketchpad verbessert die Leistung bei allen Aufgaben erheblich gegenüber starken Basismodellen ohne Skizzierung und erzielt einen durchschnittlichen Gewinn von 12,7% bei mathematischen Aufgaben und 8,6% bei visuellen Aufgaben. GPT-4o mit Sketchpad setzt einen neuen Stand der Technik bei allen Aufgaben, einschließlich V*Bench (80,3%), BLINK räumliches Denken (83,9%) und visuelle Korrespondenz (80,8%). Alle Codes und Daten finden sich unter https://visualsketchpad.github.io/.

English

Humans draw to facilitate reasoning: we draw auxiliary lines when solving geometry problems; we mark and circle when reasoning on maps; we use sketches to amplify our ideas and relieve our limited-capacity working memory. However, such actions are missing in current multimodal language models (LMs). Current chain-of-thought and tool-use paradigms only use text as intermediate reasoning steps. In this work, we introduce Sketchpad, a framework that gives multimodal LMs a visual sketchpad and tools to draw on the sketchpad. The LM conducts planning and reasoning according to the visual artifacts it has drawn. Different from prior work, which uses text-to-image models to enable LMs to draw, Sketchpad enables LMs to draw with lines, boxes, marks, etc., which is closer to human sketching and better facilitates reasoning. Sketchpad can also use specialist vision models during the sketching process (e.g., draw bounding boxes with object detection models, draw masks with segmentation models), to further enhance visual perception and reasoning. We experiment with a wide range of math tasks (including geometry, functions, graphs, and chess) and complex visual reasoning tasks. Sketchpad substantially improves performance on all tasks over strong base models with no sketching, yielding an average gain of 12.7% on math tasks, and 8.6% on vision tasks. GPT-4o with Sketchpad sets a new state of the art on all tasks, including V*Bench (80.3%), BLINK spatial reasoning (83.9%), and visual correspondence (80.8%). All codes and data are in https://visualsketchpad.github.io/.

Visuelle Skizzenblock: Skizzieren als visuelle Gedankenreihe für multimodale Sprachmodelle

Visual Sketchpad: Sketching as a Visual Chain of Thought for Multimodal Language Models

papers.abstract

Support