SketchVLM: Modelos de linguagem visual podem anotar imagens para explicar pensamentos e orientar usuários

Resumo

Ao responder perguntas sobre imagens, os seres humanos apontam, rotulam e desenham naturalmente para explicar seu raciocínio. Em contraste, modelos modernos de visão e linguagem (VLMs), como o Gemini-3-Pro e o GPT-5, respondem apenas com texto, o que pode ser difícil para os usuários verificarem. Apresentamos o SketchVLM, uma estrutura *model-agnostic* que não requer treinamento e permite que os VLMs produzam sobreposições SVG não destrutivas e editáveis na imagem de entrada para explicar visualmente suas respostas. Em sete benchmarks abrangendo raciocínio visual (navegação em labirintos, previsão de trajetória de queda de bola e contagem de objetos) e desenho (rotulagem de partes, ligar os pontos e desenhar formas ao redor de objetos), o SketchVLM melhora a precisão da tarefa de raciocínio visual em até +28,5 pontos percentuais e a qualidade da anotação em até 1,48x em relação às *baselines* de edição de imagem e desenho com *fine-tuning*, produzindo também anotações mais fiéis à resposta declarada do modelo. Verificamos que a geração em *single-turn* já atinge alta precisão e qualidade de anotação, e a geração em *multi-turn* abre mais oportunidades para colaboração humano-IA. Uma demonstração interativa e o código estão disponíveis em https://sketchvlm.github.io/.

English

When answering questions about images, humans naturally point, label, and draw to explain their reasoning. In contrast, modern vision-language models (VLMs) such as Gemini-3-Pro and GPT-5 only respond with text, which can be difficult for users to verify. We present SketchVLM, a training-free, model-agnostic framework that enables VLMs to produce non-destructive, editable SVG overlays on the input image to visually explain their answers. Across seven benchmarks spanning visual reasoning (maze navigation, ball-drop trajectory prediction, and object counting) and drawing (part labeling, connecting-the-dots, and drawing shapes around objects), SketchVLM improves visual reasoning task accuracy by up to +28.5 percentage points and annotation quality by up to 1.48x relative to image-editing and fine-tuned sketching baselines, while also producing annotations that are more faithful to the model's stated answer. We find that single-turn generation already achieves strong accuracy and annotation quality, and multi-turn generation opens up further opportunities for human-AI collaboration. An interactive demo and code are at https://sketchvlm.github.io/.

SketchVLM: Modelos de linguagem visual podem anotar imagens para explicar pensamentos e orientar usuários

SketchVLM: Vision language models can annotate images to explain thoughts and guide users

Resumo

Support