올-시잉 프로젝트: 개방형 세계의 범위적 시각 인식 및 이해를 향하여
The All-Seeing Project: Towards Panoptic Visual Recognition and Understanding of the Open World
August 3, 2023
저자: Weiyun Wang, Min Shi, Qingyun Li, Wenhai Wang, Zhenhang Huang, Linjie Xing, Zhe Chen, Hao Li, Xizhou Zhu, Zhiguo Cao, Yushi Chen, Tong Lu, Jifeng Dai, Yu Qiao
cs.AI
초록
우리는 열린 세계(open world)에서 모든 것을 인식하고 이해하기 위한 대규모 데이터와 모델인 All-Seeing(AS) 프로젝트를 소개합니다. 인간 피드백과 효율적인 모델을 통합한 확장 가능한 데이터 엔진을 사용하여, 우리는 10억 개 이상의 영역에 의미론적 태그(semantic tags), 질문-응답 쌍(question-answering pairs), 그리고 상세한 캡션(detailed captions)이 주석 처리된 새로운 데이터셋(AS-1B)을 생성했습니다. 이 데이터셋은 현실 세계의 350만 개의 일반적이고 희귀한 개념을 광범위하게 다루며, 이러한 개념과 그 속성을 설명하는 1,322억 개의 토큰을 포함합니다.
이 새로운 데이터셋을 활용하여, 우리는 범용 시각 인식 및 이해를 위한 통합 프레임워크인 All-Seeing 모델(ASM)을 개발했습니다. 이 모델은 개방형 언어 프롬프트(open-ended language prompts)와 위치 정보를 사용하여 훈련되었으며, 이를 통해 영역-텍스트 검색(region-text retrieval), 영역 인식(region recognition), 캡셔닝(captioning), 질문-응답(question-answering) 등 다양한 시각 및 언어 작업에서 뛰어난 제로샷(zero-shot) 성능을 발휘할 수 있습니다.
우리는 이 프로젝트가 시각-언어 인공 일반 지능(vision-language artificial general intelligence) 연구의 기반이 되기를 바랍니다. 모델과 데이터셋은 https://github.com/OpenGVLab/All-Seeing에서 공개될 예정이며, 데모는 https://huggingface.co/spaces/OpenGVLab/all-seeing에서 확인할 수 있습니다.
English
We present the All-Seeing (AS) project: a large-scale data and model for
recognizing and understanding everything in the open world. Using a scalable
data engine that incorporates human feedback and efficient models in the loop,
we create a new dataset (AS-1B) with over 1 billion regions annotated with
semantic tags, question-answering pairs, and detailed captions. It covers a
wide range of 3.5 million common and rare concepts in the real world, and has
132.2 billion tokens that describe the concepts and their attributes.
Leveraging this new dataset, we develop the All-Seeing model (ASM), a unified
framework for panoptic visual recognition and understanding. The model is
trained with open-ended language prompts and locations, which allows it to
generalize to various vision and language tasks with remarkable zero-shot
performance, including region-text retrieval, region recognition, captioning,
and question-answering. We hope that this project can serve as a foundation for
vision-language artificial general intelligence research. Models and the
dataset shall be released at https://github.com/OpenGVLab/All-Seeing, and demo
can be seen at https://huggingface.co/spaces/OpenGVLab/all-seeing.