ChatPaper.aiChatPaper

Segmenteren en Beschrijven van Alles

Segment and Caption Anything

December 1, 2023
Auteurs: Xiaoke Huang, Jianfeng Wang, Yansong Tang, Zheng Zhang, Han Hu, Jiwen Lu, Lijuan Wang, Zicheng Liu
cs.AI

Samenvatting

We stellen een methode voor om het Segment Anything Model (SAM) efficiënt uit te rusten met de mogelijkheid om regionale bijschriften te genereren. SAM toont een sterke generaliseerbaarheid om alles te segmenteren, maar is beperkt in semantisch begrip. Door een lichtgewicht, query-gebaseerde feature mixer te introduceren, aligneren we de regiospecifieke features met de embeddingruimte van taalmodellen voor latere bijschriftgeneratie. Omdat het aantal trainbare parameters klein is (meestal in de orde van tientallen miljoenen), kost het minder rekenkracht, minder geheugengebruik en minder communicatiebandbreedte, wat resulteert in zowel snelle als schaalbare training. Om het tekort aan regionale bijschriftdata aan te pakken, stellen we voor om ons model eerst voor te trainen op objectdetectie- en segmentatietaken. We noemen deze stap zwakke supervisie voorpretraining, aangezien de voorpretrainingdata alleen categorienamen bevat in plaats van volledige zinbeschrijvingen. De zwakke supervisie voorpretraining stelt ons in staat om veel openbaar beschikbare objectdetectie- en segmentatiedatasets te benutten. We voeren uitgebreide experimenten uit om de superioriteit van onze methode aan te tonen en elke ontwerpkeuze te valideren. Dit werk dient als een stapsteen naar het opschalen van regionale bijschriftdata en werpt licht op het verkennen van efficiënte manieren om SAM aan te vullen met regionale semantiek. De projectpagina, samen met de bijbehorende code, is toegankelijk via de volgende link: https://xk-huang.github.io/segment-caption-anything/.
English
We propose a method to efficiently equip the Segment Anything Model (SAM) with the ability to generate regional captions. SAM presents strong generalizability to segment anything while is short for semantic understanding. By introducing a lightweight query-based feature mixer, we align the region-specific features with the embedding space of language models for later caption generation. As the number of trainable parameters is small (typically in the order of tens of millions), it costs less computation, less memory usage, and less communication bandwidth, resulting in both fast and scalable training. To address the scarcity problem of regional caption data, we propose to first pre-train our model on objection detection and segmentation tasks. We call this step weak supervision pretraining since the pre-training data only contains category names instead of full-sentence descriptions. The weak supervision pretraining allows us to leverage many publicly available object detection and segmentation datasets. We conduct extensive experiments to demonstrate the superiority of our method and validate each design choice. This work serves as a stepping stone towards scaling up regional captioning data and sheds light on exploring efficient ways to augment SAM with regional semantics. The project page, along with the associated code, can be accessed via the following https://xk-huang.github.io/segment-caption-anything/.
PDF201February 7, 2026