SketchVLM: I modelli linguistici visivi possono annotare immagini per spiegare i ragionamenti e guidare gli utenti

Abstract

Quando rispondono a domande sulle immagini, gli esseri umani indicano, etichettano e disegnano naturalmente per spiegare il loro ragionamento. Al contrario, i moderni modelli visione-linguaggio (VLM) come Gemini-3-Pro e GPT-5 rispondono solo con testo, rendendo difficile per gli utenti verificarne la correttezza. Presentiamo SketchVLM, un framework agnostico rispetto al modello e che non richiede addestramento, che permette ai VLM di produrre sovrapposizioni SVG non distruttive e modificabili sull'immagine di input per spiegare visivamente le loro risposte. Attraverso sette benchmark che spaziano dal ragionamento visivo (navigazione in labirinti, previsione di traiettorie di caduta e conteggio di oggetti) al disegno (etichettatura di parti, unire i punti e disegnare forme attorno agli oggetti), SketchVLM migliora l'accuratezza nelle attività di ragionamento visivo fino a +28,5 punti percentuali e la qualità delle annotazioni fino a 1,48x rispetto ai baseline di modifica delle immagini e di disegno fine-tunati, producendo anche annotazioni più fedeli alla risposta dichiarata del modello. Rileviamo che la generazione a turno singolo raggiunge già una forte accuratezza e qualità delle annotazioni, mentre la generazione a turni multipli apre ulteriori opportunità per la collaborazione uomo-IA. Una demo interattiva e il codice sono disponibili su https://sketchvlm.github.io/.

English

When answering questions about images, humans naturally point, label, and draw to explain their reasoning. In contrast, modern vision-language models (VLMs) such as Gemini-3-Pro and GPT-5 only respond with text, which can be difficult for users to verify. We present SketchVLM, a training-free, model-agnostic framework that enables VLMs to produce non-destructive, editable SVG overlays on the input image to visually explain their answers. Across seven benchmarks spanning visual reasoning (maze navigation, ball-drop trajectory prediction, and object counting) and drawing (part labeling, connecting-the-dots, and drawing shapes around objects), SketchVLM improves visual reasoning task accuracy by up to +28.5 percentage points and annotation quality by up to 1.48x relative to image-editing and fine-tuned sketching baselines, while also producing annotations that are more faithful to the model's stated answer. We find that single-turn generation already achieves strong accuracy and annotation quality, and multi-turn generation opens up further opportunities for human-AI collaboration. An interactive demo and code are at https://sketchvlm.github.io/.

SketchVLM: I modelli linguistici visivi possono annotare immagini per spiegare i ragionamenti e guidare gli utenti

SketchVLM: Vision language models can annotate images to explain thoughts and guide users

Abstract

Support