Segmentación Rápida de Cualquier Objeto

Resumen

El recientemente propuesto modelo Segment Anything (SAM) ha tenido un impacto significativo en muchas tareas de visión por computadora. Se está convirtiendo en un paso fundamental para muchas tareas de alto nivel, como la segmentación de imágenes, la generación de descripciones de imágenes y la edición de imágenes. Sin embargo, sus elevados costos computacionales impiden su aplicación más amplia en escenarios industriales. La mayor parte del cómputo proviene de la arquitectura Transformer con entradas de alta resolución. En este artículo, proponemos un método alternativo más rápido para esta tarea fundamental con un rendimiento comparable. Al reformular la tarea como generación de segmentos y uso de indicaciones (prompting), descubrimos que un detector CNN convencional con una rama de segmentación de instancias también puede realizar esta tarea de manera efectiva. Específicamente, convertimos esta tarea en la bien estudiada tarea de segmentación de instancias y entrenamos directamente el método existente de segmentación de instancias utilizando solo 1/50 del conjunto de datos SA-1B publicado por los autores de SAM. Con nuestro método, logramos un rendimiento comparable al método SAM con una velocidad de ejecución 50 veces mayor. Presentamos resultados experimentales suficientes para demostrar su efectividad. Los códigos y demostraciones estarán disponibles en https://github.com/CASIA-IVA-Lab/FastSAM.

English

The recently proposed segment anything model (SAM) has made a significant influence in many computer vision tasks. It is becoming a foundation step for many high-level tasks, like image segmentation, image caption, and image editing. However, its huge computation costs prevent it from wider applications in industry scenarios. The computation mainly comes from the Transformer architecture at high-resolution inputs. In this paper, we propose a speed-up alternative method for this fundamental task with comparable performance. By reformulating the task as segments-generation and prompting, we find that a regular CNN detector with an instance segmentation branch can also accomplish this task well. Specifically, we convert this task to the well-studied instance segmentation task and directly train the existing instance segmentation method using only 1/50 of the SA-1B dataset published by SAM authors. With our method, we achieve a comparable performance with the SAM method at 50 times higher run-time speed. We give sufficient experimental results to demonstrate its effectiveness. The codes and demos will be released at https://github.com/CASIA-IVA-Lab/FastSAM.

Segmentación Rápida de Cualquier Objeto

Fast Segment Anything

Resumen

Support