SketchVLM: Vision Language Models kunnen afbeeldingen annoteren om gedachten uit te leggen en gebruikers te begeleiden.

Samenvatting

Bij het beantwoorden van vragen over afbeeldingen wijzen, labelen en tekenen mensen van nature om hun redenering toe te lichten. Moderne vision-language-modellen (VLM's) zoals Gemini-3-Pro en GPT-5 reageren daarentegen alleen met tekst, wat voor gebruikers moeilijk te verifiëren kan zijn. Wij presenteren SketchVLM, een trainingsvrij, model-agnostisch framework dat VLM's in staat stelt om niet-destructieve, bewerkbare SVG-overlays op de invoerafbeelding te produceren om hun antwoorden visueel toe te lichten. Over zeven benchmarks voor visueel redeneren (doolhofnavigatie, trajectvoorspelling van vallende ballen en objectentelling) en tekenen (onderdeellabeling, verbinden-van-punten en tekenen van vormen rond objecten) verbetert SketchVLM de nauwkeurigheid van visuele redeneertaken met tot +28,5 procentpunt en de annotatiekwaliteit met tot 1,48x ten opzichte van beeldbewerkings- en gefinetunede teken-baselines, terwijl het ook annotaties produceert die trouwer zijn aan het door het model gegeven antwoord. Wij constateren dat generatie in één stap reeds een hoge nauwkeurigheid en annotatiekwaliteit bereikt, en dat generatie in meerdere stappen verdere mogelijkheden voor mens-AI-samenwerking opent. Een interactieve demo en code zijn beschikbaar op https://sketchvlm.github.io/.

English

When answering questions about images, humans naturally point, label, and draw to explain their reasoning. In contrast, modern vision-language models (VLMs) such as Gemini-3-Pro and GPT-5 only respond with text, which can be difficult for users to verify. We present SketchVLM, a training-free, model-agnostic framework that enables VLMs to produce non-destructive, editable SVG overlays on the input image to visually explain their answers. Across seven benchmarks spanning visual reasoning (maze navigation, ball-drop trajectory prediction, and object counting) and drawing (part labeling, connecting-the-dots, and drawing shapes around objects), SketchVLM improves visual reasoning task accuracy by up to +28.5 percentage points and annotation quality by up to 1.48x relative to image-editing and fine-tuned sketching baselines, while also producing annotations that are more faithful to the model's stated answer. We find that single-turn generation already achieves strong accuracy and annotation quality, and multi-turn generation opens up further opportunities for human-AI collaboration. An interactive demo and code are at https://sketchvlm.github.io/.

SketchVLM: Vision Language Models kunnen afbeeldingen annoteren om gedachten uit te leggen en gebruikers te begeleiden.

SketchVLM: Vision language models can annotate images to explain thoughts and guide users

Samenvatting

Support