Modelos Autoregressivos em Visão: Uma Pesquisa

Resumo

A modelagem autoregressiva tem sido um grande sucesso no campo do processamento de linguagem natural (NLP). Recentemente, os modelos autoregressivos surgiram como uma área significativa de foco em visão computacional, onde se destacam na produção de conteúdo visual de alta qualidade. Os modelos autoregressivos em NLP normalmente operam em tokens de subpalavras. No entanto, a estratégia de representação em visão computacional pode variar em diferentes níveis, ou seja, nível de pixel, nível de token ou nível de escala, refletindo a natureza diversa e hierárquica dos dados visuais em comparação com a estrutura sequencial da linguagem. Esta pesquisa examina abrangente a literatura sobre modelos autoregressivos aplicados à visão. Para melhorar a legibilidade para pesquisadores de diversos backgrounds de pesquisa, começamos com a representação preliminar de sequências e modelagem em visão. Em seguida, dividimos os frameworks fundamentais dos modelos autoregressivos visuais em três subcategorias gerais, incluindo modelos baseados em pixel, baseados em token e baseados em escala, com base na estratégia de representação. Em seguida, exploramos as interconexões entre modelos autoregressivos e outros modelos generativos. Além disso, apresentamos uma categorização multifacetada de modelos autoregressivos em visão, incluindo geração de imagens, geração de vídeos, geração 3D e geração multimodal. Também detalhamos suas aplicações em diversos domínios, incluindo domínios emergentes como IA incorporada e IA médica 3D, com cerca de 250 referências relacionadas. Por fim, destacamos os desafios atuais dos modelos autoregressivos em visão com sugestões sobre possíveis direções de pesquisa. Também criamos um repositório no Github para organizar os artigos incluídos nesta pesquisa em: https://github.com/ChaofanTao/Autoregressive-Models-in-Vision-Survey.

English

Autoregressive modeling has been a huge success in the field of natural language processing (NLP). Recently, autoregressive models have emerged as a significant area of focus in computer vision, where they excel in producing high-quality visual content. Autoregressive models in NLP typically operate on subword tokens. However, the representation strategy in computer vision can vary in different levels, i.e., pixel-level, token-level, or scale-level, reflecting the diverse and hierarchical nature of visual data compared to the sequential structure of language. This survey comprehensively examines the literature on autoregressive models applied to vision. To improve readability for researchers from diverse research backgrounds, we start with preliminary sequence representation and modeling in vision. Next, we divide the fundamental frameworks of visual autoregressive models into three general sub-categories, including pixel-based, token-based, and scale-based models based on the strategy of representation. We then explore the interconnections between autoregressive models and other generative models. Furthermore, we present a multi-faceted categorization of autoregressive models in computer vision, including image generation, video generation, 3D generation, and multi-modal generation. We also elaborate on their applications in diverse domains, including emerging domains such as embodied AI and 3D medical AI, with about 250 related references. Finally, we highlight the current challenges to autoregressive models in vision with suggestions about potential research directions. We have also set up a Github repository to organize the papers included in this survey at: https://github.com/ChaofanTao/Autoregressive-Models-in-Vision-Survey.

Modelos Autoregressivos em Visão: Uma Pesquisa

Autoregressive Models in Vision: A Survey

Resumo

Support