Modelo de Fundamento General para Objetos en Imágenes y Videos a Escala
General Object Foundation Model for Images and Videos at Scale
December 14, 2023
Autores: Junfeng Wu, Yi Jiang, Qihao Liu, Zehuan Yuan, Xiang Bai, Song Bai
cs.AI
Resumen
En este trabajo presentamos GLEE, un modelo fundacional a nivel de objetos para localizar e identificar objetos en imágenes y videos. A través de un marco unificado, GLEE realiza detección, segmentación, seguimiento, anclaje e identificación de objetos arbitrarios en escenarios de mundo abierto para diversas tareas de percepción de objetos. Adoptando una estrategia de aprendizaje cohesiva, GLEE adquiere conocimiento de diversas fuentes de datos con distintos niveles de supervisión para formular representaciones generales de objetos, destacándose en la transferencia zero-shot a nuevos datos y tareas. Específicamente, empleamos un codificador de imágenes, un codificador de texto y un promotor visual para manejar entradas multimodales, permitiendo resolver simultáneamente diversas tareas descendentes centradas en objetos mientras se mantiene un rendimiento de vanguardia. Demostrado a través de un extenso entrenamiento en más de cinco millones de imágenes de diversos benchmarks, GLEE exhibe una versatilidad notable y un rendimiento de generalización mejorado, abordando eficientemente tareas descendentes sin necesidad de adaptación específica para cada tarea. Al integrar grandes volúmenes de datos etiquetados automáticamente, mejoramos aún más sus capacidades de generalización zero-shot. Además, GLEE es capaz de integrarse en Modelos de Lenguaje de Gran Escala, sirviendo como un modelo fundacional para proporcionar información universal a nivel de objetos para tareas multimodales. Esperamos que la versatilidad y universalidad de nuestro método marque un paso significativo en el desarrollo de modelos fundacionales visuales eficientes para sistemas de AGI. El modelo y el código se lanzarán en https://glee-vision.github.io.
English
We present GLEE in this work, an object-level foundation model for locating
and identifying objects in images and videos. Through a unified framework, GLEE
accomplishes detection, segmentation, tracking, grounding, and identification
of arbitrary objects in the open world scenario for various object perception
tasks. Adopting a cohesive learning strategy, GLEE acquires knowledge from
diverse data sources with varying supervision levels to formulate general
object representations, excelling in zero-shot transfer to new data and tasks.
Specifically, we employ an image encoder, text encoder, and visual prompter to
handle multi-modal inputs, enabling to simultaneously solve various
object-centric downstream tasks while maintaining state-of-the-art performance.
Demonstrated through extensive training on over five million images from
diverse benchmarks, GLEE exhibits remarkable versatility and improved
generalization performance, efficiently tackling downstream tasks without the
need for task-specific adaptation. By integrating large volumes of
automatically labeled data, we further enhance its zero-shot generalization
capabilities. Additionally, GLEE is capable of being integrated into Large
Language Models, serving as a foundational model to provide universal
object-level information for multi-modal tasks. We hope that the versatility
and universality of our method will mark a significant step in the development
of efficient visual foundation models for AGI systems. The model and code will
be released at https://glee-vision.github.io .Summary
AI-Generated Summary