ChatPaper.aiChatPaper

Segmentar e Legendar Qualquer Coisa

Segment and Caption Anything

December 1, 2023
Autores: Xiaoke Huang, Jianfeng Wang, Yansong Tang, Zheng Zhang, Han Hu, Jiwen Lu, Lijuan Wang, Zicheng Liu
cs.AI

Resumo

Propomos um método para equipar eficientemente o Segment Anything Model (SAM) com a capacidade de gerar legendas regionais. O SAM apresenta uma forte generalização para segmentar qualquer coisa, mas é limitado na compreensão semântica. Ao introduzir um misturador de características baseado em consultas leve, alinhamos as características específicas da região com o espaço de incorporação de modelos de linguagem para a geração posterior de legendas. Como o número de parâmetros treináveis é pequeno (tipicamente na ordem de dezenas de milhões), isso resulta em menor custo computacional, menor uso de memória e menor largura de banda de comunicação, permitindo um treinamento rápido e escalável. Para abordar o problema de escassez de dados de legendas regionais, propomos primeiro pré-treinar nosso modelo em tarefas de detecção e segmentação de objetos. Chamamos essa etapa de pré-treinamento com supervisão fraca, já que os dados de pré-treinamento contêm apenas nomes de categorias em vez de descrições completas. O pré-treinamento com supervisão fraca nos permite aproveitar muitos conjuntos de dados de detecção e segmentação de objetos disponíveis publicamente. Realizamos extensos experimentos para demonstrar a superioridade do nosso método e validar cada escolha de design. Este trabalho serve como um passo importante para ampliar os dados de legendagem regional e ilumina a exploração de maneiras eficientes de aumentar o SAM com semântica regional. A página do projeto, juntamente com o código associado, pode ser acessada através do seguinte link: https://xk-huang.github.io/segment-caption-anything/.
English
We propose a method to efficiently equip the Segment Anything Model (SAM) with the ability to generate regional captions. SAM presents strong generalizability to segment anything while is short for semantic understanding. By introducing a lightweight query-based feature mixer, we align the region-specific features with the embedding space of language models for later caption generation. As the number of trainable parameters is small (typically in the order of tens of millions), it costs less computation, less memory usage, and less communication bandwidth, resulting in both fast and scalable training. To address the scarcity problem of regional caption data, we propose to first pre-train our model on objection detection and segmentation tasks. We call this step weak supervision pretraining since the pre-training data only contains category names instead of full-sentence descriptions. The weak supervision pretraining allows us to leverage many publicly available object detection and segmentation datasets. We conduct extensive experiments to demonstrate the superiority of our method and validate each design choice. This work serves as a stepping stone towards scaling up regional captioning data and sheds light on exploring efficient ways to augment SAM with regional semantics. The project page, along with the associated code, can be accessed via the following https://xk-huang.github.io/segment-caption-anything/.
PDF201February 7, 2026