Modelo de Fundação de Objetos Gerais para Imagens e Vídeos em Escala
General Object Foundation Model for Images and Videos at Scale
December 14, 2023
Autores: Junfeng Wu, Yi Jiang, Qihao Liu, Zehuan Yuan, Xiang Bai, Song Bai
cs.AI
Resumo
Apresentamos o GLEE neste trabalho, um modelo de base em nível de objeto para localizar e identificar objetos em imagens e vídeos. Por meio de um framework unificado, o GLEE realiza detecção, segmentação, rastreamento, ancoragem e identificação de objetos arbitrários em cenários de mundo aberto para diversas tarefas de percepção de objetos. Adotando uma estratégia de aprendizado coesa, o GLEE adquire conhecimento a partir de diversas fontes de dados com diferentes níveis de supervisão para formular representações gerais de objetos, destacando-se na transferência zero-shot para novos dados e tarefas. Especificamente, empregamos um codificador de imagem, um codificador de texto e um prompt visual para lidar com entradas multimodais, permitindo resolver simultaneamente várias tarefas subsequentes centradas em objetos enquanto mantém um desempenho de ponta. Demonstrado por meio de um extenso treinamento em mais de cinco milhões de imagens de diversos benchmarks, o GLEE exibe uma versatilidade notável e um desempenho de generalização aprimorado, abordando eficientemente tarefas subsequentes sem a necessidade de adaptação específica para cada tarefa. Ao integrar grandes volumes de dados rotulados automaticamente, aprimoramos ainda mais suas capacidades de generalização zero-shot. Além disso, o GLEE é capaz de ser integrado a Modelos de Linguagem de Grande Escala, servindo como um modelo de base para fornecer informações universais em nível de objeto para tarefas multimodais. Esperamos que a versatilidade e universalidade do nosso método marquem um passo significativo no desenvolvimento de modelos de base visuais eficientes para sistemas de AGI. O modelo e o código serão disponibilizados em https://glee-vision.github.io.
English
We present GLEE in this work, an object-level foundation model for locating
and identifying objects in images and videos. Through a unified framework, GLEE
accomplishes detection, segmentation, tracking, grounding, and identification
of arbitrary objects in the open world scenario for various object perception
tasks. Adopting a cohesive learning strategy, GLEE acquires knowledge from
diverse data sources with varying supervision levels to formulate general
object representations, excelling in zero-shot transfer to new data and tasks.
Specifically, we employ an image encoder, text encoder, and visual prompter to
handle multi-modal inputs, enabling to simultaneously solve various
object-centric downstream tasks while maintaining state-of-the-art performance.
Demonstrated through extensive training on over five million images from
diverse benchmarks, GLEE exhibits remarkable versatility and improved
generalization performance, efficiently tackling downstream tasks without the
need for task-specific adaptation. By integrating large volumes of
automatically labeled data, we further enhance its zero-shot generalization
capabilities. Additionally, GLEE is capable of being integrated into Large
Language Models, serving as a foundational model to provide universal
object-level information for multi-modal tasks. We hope that the versatility
and universality of our method will mark a significant step in the development
of efficient visual foundation models for AGI systems. The model and code will
be released at https://glee-vision.github.io .