Allgemeines Objekt-Grundlagenmodell für Bilder und Videos im großen Maßstab
General Object Foundation Model for Images and Videos at Scale
December 14, 2023
Autoren: Junfeng Wu, Yi Jiang, Qihao Liu, Zehuan Yuan, Xiang Bai, Song Bai
cs.AI
Zusammenfassung
In dieser Arbeit stellen wir GLEE vor, ein Foundation-Modell auf Objektebene zur Lokalisierung und Identifizierung von Objekten in Bildern und Videos. Durch ein einheitliches Framework bewältigt GLEE die Detektion, Segmentierung, Verfolgung, Verankerung und Identifizierung beliebiger Objekte im Open-World-Szenario für verschiedene Objekterkennungsaufgaben. Mit einer kohärenten Lernstrategie erwirbt GLEE Wissen aus diversen Datenquellen mit unterschiedlichen Überwachungsgraden, um allgemeine Objektrepräsentationen zu formulieren, die sich durch hervorragende Zero-Shot-Übertragung auf neue Daten und Aufgaben auszeichnen. Konkret verwenden wir einen Bild-Encoder, einen Text-Encoder und einen visuellen Prompter, um multimodale Eingaben zu verarbeiten, wodurch gleichzeitig verschiedene objektzentrierte Downstream-Aufgaben gelöst werden können, während state-of-the-art Leistungen beibehalten werden. Durch umfangreiches Training an über fünf Millionen Bildern aus diversen Benchmarks demonstriert GLEE bemerkenswerte Vielseitigkeit und verbesserte Generalisierungsleistung, wodurch Downstream-Aufgaben effizient bewältigt werden können, ohne dass eine aufgabenspezifische Anpassung erforderlich ist. Durch die Integration großer Mengen automatisch gelabelter Daten verbessern wir weiterhin seine Zero-Shot-Generalisierungsfähigkeiten. Zudem ist GLEE in der Lage, in Large Language Models integriert zu werden und als Foundation-Modell universelle Objektinformationen für multimodale Aufgaben bereitzustellen. Wir hoffen, dass die Vielseitigkeit und Universalität unserer Methode einen bedeutenden Schritt in der Entwicklung effizienter visueller Foundation-Modelle für AGI-Systeme darstellt. Das Modell und der Code werden unter https://glee-vision.github.io veröffentlicht.
English
We present GLEE in this work, an object-level foundation model for locating
and identifying objects in images and videos. Through a unified framework, GLEE
accomplishes detection, segmentation, tracking, grounding, and identification
of arbitrary objects in the open world scenario for various object perception
tasks. Adopting a cohesive learning strategy, GLEE acquires knowledge from
diverse data sources with varying supervision levels to formulate general
object representations, excelling in zero-shot transfer to new data and tasks.
Specifically, we employ an image encoder, text encoder, and visual prompter to
handle multi-modal inputs, enabling to simultaneously solve various
object-centric downstream tasks while maintaining state-of-the-art performance.
Demonstrated through extensive training on over five million images from
diverse benchmarks, GLEE exhibits remarkable versatility and improved
generalization performance, efficiently tackling downstream tasks without the
need for task-specific adaptation. By integrating large volumes of
automatically labeled data, we further enhance its zero-shot generalization
capabilities. Additionally, GLEE is capable of being integrated into Large
Language Models, serving as a foundational model to provide universal
object-level information for multi-modal tasks. We hope that the versatility
and universality of our method will mark a significant step in the development
of efficient visual foundation models for AGI systems. The model and code will
be released at https://glee-vision.github.io .Summary
AI-Generated Summary