Segmentar y Captionar Cualquier Cosa
Segment and Caption Anything
December 1, 2023
Autores: Xiaoke Huang, Jianfeng Wang, Yansong Tang, Zheng Zhang, Han Hu, Jiwen Lu, Lijuan Wang, Zicheng Liu
cs.AI
Resumen
Proponemos un método para equipar eficientemente al Segment Anything Model (SAM) con la capacidad de generar descripciones regionales. SAM presenta una fuerte generalización para segmentar cualquier cosa, pero carece de comprensión semántica. Al introducir un mezclador de características basado en consultas ligero, alineamos las características específicas de la región con el espacio de incrustación de los modelos de lenguaje para la posterior generación de descripciones. Dado que el número de parámetros entrenables es pequeño (típicamente del orden de decenas de millones), se requiere menos computación, menos uso de memoria y menos ancho de banda de comunicación, lo que resulta en un entrenamiento rápido y escalable. Para abordar el problema de escasez de datos de descripciones regionales, proponemos primero preentrenar nuestro modelo en tareas de detección y segmentación de objetos. Llamamos a este paso preentrenamiento con supervisión débil, ya que los datos de preentrenamiento solo contienen nombres de categorías en lugar de descripciones completas. El preentrenamiento con supervisión débil nos permite aprovechar muchos conjuntos de datos de detección y segmentación de objetos disponibles públicamente. Realizamos extensos experimentos para demostrar la superioridad de nuestro método y validar cada elección de diseño. Este trabajo sirve como un paso hacia la ampliación de datos de descripciones regionales y arroja luz sobre la exploración de formas eficientes de aumentar SAM con semántica regional. La página del proyecto, junto con el código asociado, se puede acceder a través del siguiente enlace: https://xk-huang.github.io/segment-caption-anything/.
English
We propose a method to efficiently equip the Segment Anything Model (SAM)
with the ability to generate regional captions. SAM presents strong
generalizability to segment anything while is short for semantic understanding.
By introducing a lightweight query-based feature mixer, we align the
region-specific features with the embedding space of language models for later
caption generation. As the number of trainable parameters is small (typically
in the order of tens of millions), it costs less computation, less memory
usage, and less communication bandwidth, resulting in both fast and scalable
training. To address the scarcity problem of regional caption data, we propose
to first pre-train our model on objection detection and segmentation tasks. We
call this step weak supervision pretraining since the pre-training data only
contains category names instead of full-sentence descriptions. The weak
supervision pretraining allows us to leverage many publicly available object
detection and segmentation datasets. We conduct extensive experiments to
demonstrate the superiority of our method and validate each design choice. This
work serves as a stepping stone towards scaling up regional captioning data and
sheds light on exploring efficient ways to augment SAM with regional semantics.
The project page, along with the associated code, can be accessed via the
following https://xk-huang.github.io/segment-caption-anything/.