ChatPaper.aiChatPaper

Segmentieren und Beschriften von allem

Segment and Caption Anything

December 1, 2023
Autoren: Xiaoke Huang, Jianfeng Wang, Yansong Tang, Zheng Zhang, Han Hu, Jiwen Lu, Lijuan Wang, Zicheng Liu
cs.AI

Zusammenfassung

Wir schlagen eine Methode vor, um das Segment Anything Model (SAM) effizient mit der Fähigkeit zur Erstellung regionaler Bildbeschreibungen auszustatten. SAM zeigt eine starke Generalisierbarkeit bei der Segmentierung beliebiger Objekte, verfügt jedoch nur über begrenzte Fähigkeiten zur semantischen Interpretation. Durch die Einführung eines leichtgewichtigen, abfragebasierten Feature-Mixers richten wir die regionsspezifischen Merkmale im Einbettungsraum von Sprachmodellen aus, um anschließend Bildbeschreibungen zu generieren. Da die Anzahl der trainierbaren Parameter gering ist (typischerweise in der Größenordnung von zehn Millionen), erfordert dies weniger Rechenleistung, weniger Speicherbedarf und weniger Kommunikationsbandbreite, was sowohl zu schnellem als auch skalierbarem Training führt. Um das Problem der Knappheit von Daten für regionale Bildbeschreibungen zu adressieren, schlagen wir vor, unser Modell zunächst auf Objekterkennungs- und Segmentierungsaufgaben vorzutrainieren. Wir bezeichnen diesen Schritt als Schwachüberwachungs-Vortraining, da die Vortrainingsdaten nur Kategorienamen anstelle von vollständigen Satzbeschreibungen enthalten. Das Schwachüberwachungs-Vortraining ermöglicht es uns, viele öffentlich verfügbare Datensätze zur Objekterkennung und Segmentierung zu nutzen. Wir führen umfangreiche Experimente durch, um die Überlegenheit unserer Methode zu demonstrieren und jede Designentscheidung zu validieren. Diese Arbeit dient als Schrittstein zur Skalierung von Daten für regionale Bildbeschreibungen und beleuchtet die Erforschung effizienter Wege, SAM mit regionaler Semantik zu erweitern. Die Projektseite sowie der zugehörige Code sind über den folgenden Link zugänglich: https://xk-huang.github.io/segment-caption-anything/.
English
We propose a method to efficiently equip the Segment Anything Model (SAM) with the ability to generate regional captions. SAM presents strong generalizability to segment anything while is short for semantic understanding. By introducing a lightweight query-based feature mixer, we align the region-specific features with the embedding space of language models for later caption generation. As the number of trainable parameters is small (typically in the order of tens of millions), it costs less computation, less memory usage, and less communication bandwidth, resulting in both fast and scalable training. To address the scarcity problem of regional caption data, we propose to first pre-train our model on objection detection and segmentation tasks. We call this step weak supervision pretraining since the pre-training data only contains category names instead of full-sentence descriptions. The weak supervision pretraining allows us to leverage many publicly available object detection and segmentation datasets. We conduct extensive experiments to demonstrate the superiority of our method and validate each design choice. This work serves as a stepping stone towards scaling up regional captioning data and sheds light on exploring efficient ways to augment SAM with regional semantics. The project page, along with the associated code, can be accessed via the following https://xk-huang.github.io/segment-caption-anything/.
PDF211December 15, 2024