Modèle de Fondation d'Objets Généraux pour les Images et les Vidéos à Grande Échelle
General Object Foundation Model for Images and Videos at Scale
December 14, 2023
Auteurs: Junfeng Wu, Yi Jiang, Qihao Liu, Zehuan Yuan, Xiang Bai, Song Bai
cs.AI
Résumé
Nous présentons dans ce travail GLEE, un modèle de fondation au niveau des objets pour localiser et identifier des objets dans des images et des vidéos. Grâce à un cadre unifié, GLEE réalise la détection, la segmentation, le suivi, l'ancrage et l'identification d'objets arbitraires dans un scénario de monde ouvert pour diverses tâches de perception d'objets. En adoptant une stratégie d'apprentissage cohérente, GLEE acquiert des connaissances à partir de sources de données variées avec des niveaux de supervision différents pour formuler des représentations générales d'objets, excellant dans le transfert zero-shot vers de nouvelles données et tâches. Plus précisément, nous utilisons un encodeur d'images, un encodeur de texte et un prompteur visuel pour gérer des entrées multimodales, permettant de résoudre simultanément diverses tâches en aval centrées sur les objets tout en maintenant des performances de pointe. Démonstré par un entraînement extensif sur plus de cinq millions d'images provenant de divers benchmarks, GLEE montre une polyvalence remarquable et une amélioration des performances de généralisation, abordant efficacement les tâches en aval sans nécessiter d'adaptation spécifique à la tâche. En intégrant de grands volumes de données étiquetées automatiquement, nous améliorons encore ses capacités de généralisation zero-shot. De plus, GLEE est capable d'être intégré dans des modèles de langage de grande taille, servant de modèle de fondation pour fournir des informations universelles au niveau des objets pour des tâches multimodales. Nous espérons que la polyvalence et l'universalité de notre méthode marqueront une étape significative dans le développement de modèles de fondation visuels efficaces pour les systèmes d'AGI. Le modèle et le code seront disponibles à l'adresse https://glee-vision.github.io.
English
We present GLEE in this work, an object-level foundation model for locating
and identifying objects in images and videos. Through a unified framework, GLEE
accomplishes detection, segmentation, tracking, grounding, and identification
of arbitrary objects in the open world scenario for various object perception
tasks. Adopting a cohesive learning strategy, GLEE acquires knowledge from
diverse data sources with varying supervision levels to formulate general
object representations, excelling in zero-shot transfer to new data and tasks.
Specifically, we employ an image encoder, text encoder, and visual prompter to
handle multi-modal inputs, enabling to simultaneously solve various
object-centric downstream tasks while maintaining state-of-the-art performance.
Demonstrated through extensive training on over five million images from
diverse benchmarks, GLEE exhibits remarkable versatility and improved
generalization performance, efficiently tackling downstream tasks without the
need for task-specific adaptation. By integrating large volumes of
automatically labeled data, we further enhance its zero-shot generalization
capabilities. Additionally, GLEE is capable of being integrated into Large
Language Models, serving as a foundational model to provide universal
object-level information for multi-modal tasks. We hope that the versatility
and universality of our method will mark a significant step in the development
of efficient visual foundation models for AGI systems. The model and code will
be released at https://glee-vision.github.io .