Авторегрессионные модели в области зрения: обзор
Autoregressive Models in Vision: A Survey
November 8, 2024
Авторы: Jing Xiong, Gongye Liu, Lun Huang, Chengyue Wu, Taiqiang Wu, Yao Mu, Yuan Yao, Hui Shen, Zhongwei Wan, Jinfa Huang, Chaofan Tao, Shen Yan, Huaxiu Yao, Lingpeng Kong, Hongxia Yang, Mi Zhang, Guillermo Sapiro, Jiebo Luo, Ping Luo, Ngai Wong
cs.AI
Аннотация
Авторегрессионное моделирование оказалось огромным успехом в области обработки естественного языка (NLP). Недавно авторегрессионные модели стали значительной областью внимания в компьютерном зрении, где они отличаются в создании высококачественного визуального контента. Авторегрессионные модели в NLP обычно работают с субтокенами. Однако стратегия представления в компьютерном зрении может варьироваться на разных уровнях, таких как уровень пикселей, уровень токенов или уровень масштаба, отражая разнообразную и иерархическую природу визуальных данных по сравнению с последовательной структурой языка. В данном обзоре подробно рассматривается литература по авторегрессионным моделям, применяемым к зрению. Для улучшения читаемости для исследователей из различных областей исследований мы начинаем с предварительного представления последовательности и моделирования в зрении. Затем мы разделяем основные структуры визуальных авторегрессионных моделей на три общие подкатегории, включая модели на основе пикселей, модели на основе токенов и модели на основе масштаба в зависимости от стратегии представления. Затем мы исследуем взаимосвязи между авторегрессионными моделями и другими генеративными моделями. Кроме того, мы представляем многоаспектную категоризацию авторегрессионных моделей в компьютерном зрении, включая генерацию изображений, генерацию видео, генерацию 3D и мультимодальную генерацию. Мы также подробно описываем их применение в различных областях, включая новые области, такие как воплощенный ИИ и медицинский ИИ в 3D, с примерно 250 связанными ссылками. Наконец, мы выделяем текущие вызовы для авторегрессионных моделей в зрении с предложениями о потенциальных направлениях исследований. Мы также создали репозиторий на Github для организации статей, включенных в этот обзор по адресу: https://github.com/ChaofanTao/Autoregressive-Models-in-Vision-Survey.
English
Autoregressive modeling has been a huge success in the field of natural
language processing (NLP). Recently, autoregressive models have emerged as a
significant area of focus in computer vision, where they excel in producing
high-quality visual content. Autoregressive models in NLP typically operate on
subword tokens. However, the representation strategy in computer vision can
vary in different levels, i.e., pixel-level, token-level, or
scale-level, reflecting the diverse and hierarchical nature of visual data
compared to the sequential structure of language. This survey comprehensively
examines the literature on autoregressive models applied to vision. To improve
readability for researchers from diverse research backgrounds, we start with
preliminary sequence representation and modeling in vision. Next, we divide the
fundamental frameworks of visual autoregressive models into three general
sub-categories, including pixel-based, token-based, and scale-based models
based on the strategy of representation. We then explore the interconnections
between autoregressive models and other generative models. Furthermore, we
present a multi-faceted categorization of autoregressive models in computer
vision, including image generation, video generation, 3D generation, and
multi-modal generation. We also elaborate on their applications in diverse
domains, including emerging domains such as embodied AI and 3D medical AI, with
about 250 related references. Finally, we highlight the current challenges to
autoregressive models in vision with suggestions about potential research
directions. We have also set up a Github repository to organize the papers
included in this survey at:
https://github.com/ChaofanTao/Autoregressive-Models-in-Vision-Survey.Summary
AI-Generated Summary