Modello Fondamentale Generale per Oggetti su Immagini e Video su Scala Ampia

Abstract

In questo lavoro presentiamo GLEE, un modello fondazionale a livello di oggetti per localizzare e identificare oggetti in immagini e video. Attraverso un framework unificato, GLEE realizza il rilevamento, la segmentazione, il tracciamento, il grounding e l'identificazione di oggetti arbitrari nello scenario open world per varie attività di percezione degli oggetti. Adottando una strategia di apprendimento coesa, GLEE acquisisce conoscenza da fonti di dati diversificate con diversi livelli di supervisione per formulare rappresentazioni generali degli oggetti, eccellendo nel trasferimento zero-shot a nuovi dati e compiti. Nello specifico, utilizziamo un codificatore di immagini, un codificatore di testo e un prompt visivo per gestire input multimodali, consentendo di risolvere simultaneamente varie attività downstream centrate sugli oggetti mantenendo prestazioni all'avanguardia. Dimostrato attraverso un addestramento estensivo su oltre cinque milioni di immagini provenienti da benchmark diversificati, GLEE mostra una notevole versatilità e migliori prestazioni di generalizzazione, affrontando in modo efficiente le attività downstream senza la necessità di adattamenti specifici per compito. Integrando grandi volumi di dati etichettati automaticamente, miglioriamo ulteriormente le sue capacità di generalizzazione zero-shot. Inoltre, GLEE è in grado di essere integrato in Modelli Linguistici di Grande Scala, fungendo da modello fondazionale per fornire informazioni universali a livello di oggetti per compiti multimodali. Speriamo che la versatilità e l'universalità del nostro metodo segnino un passo significativo nello sviluppo di modelli fondazionali visivi efficienti per sistemi AGI. Il modello e il codice saranno rilasciati su https://glee-vision.github.io.

English

We present GLEE in this work, an object-level foundation model for locating and identifying objects in images and videos. Through a unified framework, GLEE accomplishes detection, segmentation, tracking, grounding, and identification of arbitrary objects in the open world scenario for various object perception tasks. Adopting a cohesive learning strategy, GLEE acquires knowledge from diverse data sources with varying supervision levels to formulate general object representations, excelling in zero-shot transfer to new data and tasks. Specifically, we employ an image encoder, text encoder, and visual prompter to handle multi-modal inputs, enabling to simultaneously solve various object-centric downstream tasks while maintaining state-of-the-art performance. Demonstrated through extensive training on over five million images from diverse benchmarks, GLEE exhibits remarkable versatility and improved generalization performance, efficiently tackling downstream tasks without the need for task-specific adaptation. By integrating large volumes of automatically labeled data, we further enhance its zero-shot generalization capabilities. Additionally, GLEE is capable of being integrated into Large Language Models, serving as a foundational model to provide universal object-level information for multi-modal tasks. We hope that the versatility and universality of our method will mark a significant step in the development of efficient visual foundation models for AGI systems. The model and code will be released at https://glee-vision.github.io .

Modello Fondamentale Generale per Oggetti su Immagini e Video su Scala Ampia

General Object Foundation Model for Images and Videos at Scale

Abstract

Support