Modelos Autoregressivos em Visão: Uma Pesquisa
Autoregressive Models in Vision: A Survey
November 8, 2024
Autores: Jing Xiong, Gongye Liu, Lun Huang, Chengyue Wu, Taiqiang Wu, Yao Mu, Yuan Yao, Hui Shen, Zhongwei Wan, Jinfa Huang, Chaofan Tao, Shen Yan, Huaxiu Yao, Lingpeng Kong, Hongxia Yang, Mi Zhang, Guillermo Sapiro, Jiebo Luo, Ping Luo, Ngai Wong
cs.AI
Resumo
A modelagem autoregressiva tem sido um grande sucesso no campo do processamento de linguagem natural (NLP). Recentemente, os modelos autoregressivos surgiram como uma área significativa de foco em visão computacional, onde se destacam na produção de conteúdo visual de alta qualidade. Os modelos autoregressivos em NLP normalmente operam em tokens de subpalavras. No entanto, a estratégia de representação em visão computacional pode variar em diferentes níveis, ou seja, nível de pixel, nível de token ou nível de escala, refletindo a natureza diversa e hierárquica dos dados visuais em comparação com a estrutura sequencial da linguagem. Esta pesquisa examina abrangente a literatura sobre modelos autoregressivos aplicados à visão. Para melhorar a legibilidade para pesquisadores de diversos backgrounds de pesquisa, começamos com a representação preliminar de sequências e modelagem em visão. Em seguida, dividimos os frameworks fundamentais dos modelos autoregressivos visuais em três subcategorias gerais, incluindo modelos baseados em pixel, baseados em token e baseados em escala, com base na estratégia de representação. Em seguida, exploramos as interconexões entre modelos autoregressivos e outros modelos generativos. Além disso, apresentamos uma categorização multifacetada de modelos autoregressivos em visão, incluindo geração de imagens, geração de vídeos, geração 3D e geração multimodal. Também detalhamos suas aplicações em diversos domínios, incluindo domínios emergentes como IA incorporada e IA médica 3D, com cerca de 250 referências relacionadas. Por fim, destacamos os desafios atuais dos modelos autoregressivos em visão com sugestões sobre possíveis direções de pesquisa. Também criamos um repositório no Github para organizar os artigos incluídos nesta pesquisa em: https://github.com/ChaofanTao/Autoregressive-Models-in-Vision-Survey.
English
Autoregressive modeling has been a huge success in the field of natural
language processing (NLP). Recently, autoregressive models have emerged as a
significant area of focus in computer vision, where they excel in producing
high-quality visual content. Autoregressive models in NLP typically operate on
subword tokens. However, the representation strategy in computer vision can
vary in different levels, i.e., pixel-level, token-level, or
scale-level, reflecting the diverse and hierarchical nature of visual data
compared to the sequential structure of language. This survey comprehensively
examines the literature on autoregressive models applied to vision. To improve
readability for researchers from diverse research backgrounds, we start with
preliminary sequence representation and modeling in vision. Next, we divide the
fundamental frameworks of visual autoregressive models into three general
sub-categories, including pixel-based, token-based, and scale-based models
based on the strategy of representation. We then explore the interconnections
between autoregressive models and other generative models. Furthermore, we
present a multi-faceted categorization of autoregressive models in computer
vision, including image generation, video generation, 3D generation, and
multi-modal generation. We also elaborate on their applications in diverse
domains, including emerging domains such as embodied AI and 3D medical AI, with
about 250 related references. Finally, we highlight the current challenges to
autoregressive models in vision with suggestions about potential research
directions. We have also set up a Github repository to organize the papers
included in this survey at:
https://github.com/ChaofanTao/Autoregressive-Models-in-Vision-Survey.