Проект All-Seeing: К панорамному визуальному распознаванию и пониманию открытого мира

Аннотация

Мы представляем проект All-Seeing (AS): масштабные данные и модель для распознавания и понимания всего в открытом мире. Используя масштабируемый механизм обработки данных, который включает обратную связь от людей и эффективные модели в цикле, мы создаем новый набор данных (AS-1B) с более чем 1 миллиардом областей, аннотированных семантическими тегами, парами вопросов и ответов, а также подробными описаниями. Он охватывает широкий спектр из 3,5 миллионов распространенных и редких концепций в реальном мире и содержит 132,2 миллиарда токенов, описывающих эти концепции и их атрибуты. На основе этого нового набора данных мы разрабатываем модель All-Seeing (ASM) — унифицированную структуру для панорамного визуального распознавания и понимания. Модель обучается с использованием открытых языковых подсказок и локаций, что позволяет ей обобщать различные задачи в области зрения и языка с выдающейся производительностью в условиях zero-shot, включая поиск по тексту и областям, распознавание областей, создание описаний и ответы на вопросы. Мы надеемся, что этот проект станет основой для исследований в области искусственного общего интеллекта, связанного с обработкой зрения и языка. Модели и набор данных будут доступны по адресу https://github.com/OpenGVLab/All-Seeing, а демонстрацию можно увидеть на https://huggingface.co/spaces/OpenGVLab/all-seeing.

English

We present the All-Seeing (AS) project: a large-scale data and model for recognizing and understanding everything in the open world. Using a scalable data engine that incorporates human feedback and efficient models in the loop, we create a new dataset (AS-1B) with over 1 billion regions annotated with semantic tags, question-answering pairs, and detailed captions. It covers a wide range of 3.5 million common and rare concepts in the real world, and has 132.2 billion tokens that describe the concepts and their attributes. Leveraging this new dataset, we develop the All-Seeing model (ASM), a unified framework for panoptic visual recognition and understanding. The model is trained with open-ended language prompts and locations, which allows it to generalize to various vision and language tasks with remarkable zero-shot performance, including region-text retrieval, region recognition, captioning, and question-answering. We hope that this project can serve as a foundation for vision-language artificial general intelligence research. Models and the dataset shall be released at https://github.com/OpenGVLab/All-Seeing, and demo can be seen at https://huggingface.co/spaces/OpenGVLab/all-seeing.

Проект All-Seeing: К панорамному визуальному распознаванию и пониманию открытого мира

The All-Seeing Project: Towards Panoptic Visual Recognition and Understanding of the Open World

Аннотация

Support