Algemeen Object Fundament Model voor Afbeeldingen en Video's op Schaal
General Object Foundation Model for Images and Videos at Scale
December 14, 2023
Auteurs: Junfeng Wu, Yi Jiang, Qihao Liu, Zehuan Yuan, Xiang Bai, Song Bai
cs.AI
Samenvatting
In dit werk presenteren we GLEE, een foundation model op objectniveau voor het lokaliseren en identificeren van objecten in afbeeldingen en video's. Door middel van een uniform raamwerk realiseert GLEE detectie, segmentatie, tracking, grounding en identificatie van willekeurige objecten in open-wereldscenario's voor diverse objectperceptietaken. Door een samenhangende leerstrategie te hanteren, verwerft GLEE kennis uit diverse gegevensbronnen met verschillende niveaus van supervisie om algemene objectrepresentaties te formuleren, wat uitblinkt in zero-shot transfer naar nieuwe gegevens en taken. Specifiek gebruiken we een beeldencoder, tekstencoder en visuele prompter om multimodale invoer te verwerken, waardoor het mogelijk wordt om verschillende objectgerichte downstream taken gelijktijdig op te lossen terwijl state-of-the-art prestaties worden behouden. GLEE toont opmerkelijke veelzijdigheid en verbeterde generalisatieprestaties, wat wordt aangetoond door uitgebreide training op meer dan vijf miljoen afbeeldingen van diverse benchmarks, en pakt downstream taken efficiënt aan zonder de noodzaak van taakspecifieke aanpassing. Door grote hoeveelheden automatisch gelabelde gegevens te integreren, versterken we verder de zero-shot generalisatiecapaciteiten. Daarnaast kan GLEE worden geïntegreerd in Large Language Models, waar het dient als een foundation model om universele objectniveau-informatie te bieden voor multimodale taken. We hopen dat de veelzijdigheid en universaliteit van onze methode een belangrijke stap zal markeren in de ontwikkeling van efficiënte visuele foundation modellen voor AGI-systemen. Het model en de code zullen worden vrijgegeven op https://glee-vision.github.io.
English
We present GLEE in this work, an object-level foundation model for locating
and identifying objects in images and videos. Through a unified framework, GLEE
accomplishes detection, segmentation, tracking, grounding, and identification
of arbitrary objects in the open world scenario for various object perception
tasks. Adopting a cohesive learning strategy, GLEE acquires knowledge from
diverse data sources with varying supervision levels to formulate general
object representations, excelling in zero-shot transfer to new data and tasks.
Specifically, we employ an image encoder, text encoder, and visual prompter to
handle multi-modal inputs, enabling to simultaneously solve various
object-centric downstream tasks while maintaining state-of-the-art performance.
Demonstrated through extensive training on over five million images from
diverse benchmarks, GLEE exhibits remarkable versatility and improved
generalization performance, efficiently tackling downstream tasks without the
need for task-specific adaptation. By integrating large volumes of
automatically labeled data, we further enhance its zero-shot generalization
capabilities. Additionally, GLEE is capable of being integrated into Large
Language Models, serving as a foundational model to provide universal
object-level information for multi-modal tasks. We hope that the versatility
and universality of our method will mark a significant step in the development
of efficient visual foundation models for AGI systems. The model and code will
be released at https://glee-vision.github.io .