Visuele In-Context Prompting

Samenvatting

In-context prompting in grote taalmodellen (LLMs) is een veelgebruikte aanpak geworden om zero-shot-mogelijkheden te verbeteren, maar dit idee is minder onderzocht in het visuele domein. Bestaande methoden voor visuele prompting richten zich op refererende segmentatie om het meest relevante object te segmenteren, maar schieten tekort in het aanpakken van veel algemene visuele taken zoals open-set-segmentatie en detectie. In dit artikel introduceren we een universeel visueel in-context prompting-framework voor beide taken. In het bijzonder bouwen we voort op een encoder-decoder-architectuur en ontwikkelen we een veelzijdige prompt-encoder die een verscheidenheid aan prompts ondersteunt, zoals strepen, vakjes en punten. We verbeteren deze verder om een willekeurig aantal referentiebeeldsegmenten als context te gebruiken. Onze uitgebreide onderzoeken tonen aan dat het voorgestelde visuele in-context prompting buitengewone refererende en generieke segmentatiecapaciteiten oproept om te verwijzen en te detecteren, wat resulteert in competitieve prestaties op close-set in-domein datasets en veelbelovende resultaten laat zien op veel open-set-segmentatiedatasets. Door gezamenlijke training op COCO en SA-1B behaalt ons model 57,7 PQ op COCO en 23,2 PQ op ADE20K. De code zal beschikbaar zijn op https://github.com/UX-Decoder/DINOv.

English

In-context prompting in large language models (LLMs) has become a prevalent approach to improve zero-shot capabilities, but this idea is less explored in the vision domain. Existing visual prompting methods focus on referring segmentation to segment the most relevant object, falling short of addressing many generic vision tasks like open-set segmentation and detection. In this paper, we introduce a universal visual in-context prompting framework for both tasks. In particular, we build on top of an encoder-decoder architecture, and develop a versatile prompt encoder to support a variety of prompts like strokes, boxes, and points. We further enhance it to take an arbitrary number of reference image segments as the context. Our extensive explorations show that the proposed visual in-context prompting elicits extraordinary referring and generic segmentation capabilities to refer and detect, yielding competitive performance to close-set in-domain datasets and showing promising results on many open-set segmentation datasets. By joint training on COCO and SA-1B, our model achieves 57.7 PQ on COCO and 23.2 PQ on ADE20K. Code will be available at https://github.com/UX-Decoder/DINOv.

Visuele In-Context Prompting

Visual In-Context Prompting

Samenvatting

Support