Универсальная базовая модель для изображений и видео в масштабе

General Object Foundation Model for Images and Videos at Scale

December 14, 2023
Авторы: Junfeng Wu, Yi Jiang, Qihao Liu, Zehuan Yuan, Xiang Bai, Song Bai
cs.AI

Аннотация

В данной работе мы представляем GLEE — базовую модель на уровне объектов для локализации и идентификации объектов на изображениях и видео. В рамках единой структуры GLEE выполняет задачи обнаружения, сегментации, отслеживания, привязки и идентификации произвольных объектов в сценариях открытого мира для различных задач восприятия объектов. Используя согласованную стратегию обучения, GLEE приобретает знания из разнообразных источников данных с различными уровнями контроля, формируя общие представления об объектах, что позволяет ей эффективно справляться с задачами переноса на новые данные и задачи в условиях нулевого обучения. В частности, мы применяем кодировщик изображений, кодировщик текста и визуальный промптер для обработки многомодальных входных данных, что позволяет одновременно решать различные задачи, ориентированные на объекты, сохраняя при этом передовые показатели производительности. Продемонстрированная в ходе обширного обучения на более чем пяти миллионах изображений из различных наборов данных, GLEE демонстрирует выдающуюся универсальность и улучшенную способность к обобщению, эффективно справляясь с задачами без необходимости адаптации под конкретные задачи. Благодаря интеграции больших объемов автоматически размеченных данных мы дополнительно усиливаем её способности к нулевому обобщению. Кроме того, GLEE может быть интегрирована в крупные языковые модели, выступая в качестве базовой модели для предоставления универсальной информации на уровне объектов для многомодальных задач. Мы надеемся, что универсальность и универсальность нашего метода станут важным шагом в разработке эффективных визуальных базовых моделей для систем искусственного общего интеллекта (AGI). Модель и код будут доступны по адресу https://glee-vision.github.io.
English
We present GLEE in this work, an object-level foundation model for locating and identifying objects in images and videos. Through a unified framework, GLEE accomplishes detection, segmentation, tracking, grounding, and identification of arbitrary objects in the open world scenario for various object perception tasks. Adopting a cohesive learning strategy, GLEE acquires knowledge from diverse data sources with varying supervision levels to formulate general object representations, excelling in zero-shot transfer to new data and tasks. Specifically, we employ an image encoder, text encoder, and visual prompter to handle multi-modal inputs, enabling to simultaneously solve various object-centric downstream tasks while maintaining state-of-the-art performance. Demonstrated through extensive training on over five million images from diverse benchmarks, GLEE exhibits remarkable versatility and improved generalization performance, efficiently tackling downstream tasks without the need for task-specific adaptation. By integrating large volumes of automatically labeled data, we further enhance its zero-shot generalization capabilities. Additionally, GLEE is capable of being integrated into Large Language Models, serving as a foundational model to provide universal object-level information for multi-modal tasks. We hope that the versatility and universality of our method will mark a significant step in the development of efficient visual foundation models for AGI systems. The model and code will be released at https://glee-vision.github.io .
PDF122December 15, 2024