ChatPaper.aiChatPaper

Hacia una Segmentación de Partes con Vocabulario Abierto más Densa

Going Denser with Open-Vocabulary Part Segmentation

May 18, 2023
Autores: Peize Sun, Shoufa Chen, Chenchen Zhu, Fanyi Xiao, Ping Luo, Saining Xie, Zhicheng Yan
cs.AI

Resumen

La detección de objetos se ha ampliado desde un número limitado de categorías hasta un vocabulario abierto. Avanzando, un sistema de visión inteligente completo requiere comprender descripciones de objetos más detalladas y sus partes. En este artículo, proponemos un detector con la capacidad de predecir tanto objetos de vocabulario abierto como su segmentación de partes. Esta capacidad proviene de dos diseños. Primero, entrenamos el detector en la unión de datos a nivel de partes, a nivel de objeto y a nivel de imagen para construir la alineación multigranular entre el lenguaje y la imagen. Segundo, analizamos el objeto novedoso en sus partes mediante su correspondencia semántica densa con el objeto base. Estos dos diseños permiten que el detector se beneficie en gran medida de diversas fuentes de datos y modelos fundamentales. En experimentos de segmentación de partes de vocabulario abierto, nuestro método supera la línea base en 3.3 a 7.3 mAP en generalización entre conjuntos de datos en PartImageNet, y mejora la línea base en 7.3 AP_{50} novedoso en generalización entre categorías en Pascal Part. Finalmente, entrenamos un detector que generaliza a una amplia gama de conjuntos de datos de segmentación de partes, logrando un mejor rendimiento que el entrenamiento específico por conjunto de datos.
English
Object detection has been expanded from a limited number of categories to open vocabulary. Moving forward, a complete intelligent vision system requires understanding more fine-grained object descriptions, object parts. In this paper, we propose a detector with the ability to predict both open-vocabulary objects and their part segmentation. This ability comes from two designs. First, we train the detector on the joint of part-level, object-level and image-level data to build the multi-granularity alignment between language and image. Second, we parse the novel object into its parts by its dense semantic correspondence with the base object. These two designs enable the detector to largely benefit from various data sources and foundation models. In open-vocabulary part segmentation experiments, our method outperforms the baseline by 3.3sim7.3 mAP in cross-dataset generalization on PartImageNet, and improves the baseline by 7.3 novel AP_{50} in cross-category generalization on Pascal Part. Finally, we train a detector that generalizes to a wide range of part segmentation datasets while achieving better performance than dataset-specific training.
PDF21December 15, 2024