Modelos Autoregresivos en Visión: Un Estudio
Autoregressive Models in Vision: A Survey
November 8, 2024
Autores: Jing Xiong, Gongye Liu, Lun Huang, Chengyue Wu, Taiqiang Wu, Yao Mu, Yuan Yao, Hui Shen, Zhongwei Wan, Jinfa Huang, Chaofan Tao, Shen Yan, Huaxiu Yao, Lingpeng Kong, Hongxia Yang, Mi Zhang, Guillermo Sapiro, Jiebo Luo, Ping Luo, Ngai Wong
cs.AI
Resumen
La modelización autoregresiva ha sido un gran éxito en el campo del procesamiento de lenguaje natural (NLP). Recientemente, los modelos autoregresivos han surgido como un área significativa de enfoque en la visión por computadora, donde destacan en la producción de contenido visual de alta calidad. Los modelos autoregresivos en NLP típicamente operan en tokens de subpalabras. Sin embargo, la estrategia de representación en visión por computadora puede variar en diferentes niveles, es decir, a nivel de píxel, a nivel de token o a nivel de escala, reflejando la naturaleza diversa y jerárquica de los datos visuales en comparación con la estructura secuencial del lenguaje. Esta encuesta examina exhaustivamente la literatura sobre modelos autoregresivos aplicados a la visión. Para mejorar la legibilidad para investigadores de diversos ámbitos de investigación, comenzamos con la representación y modelización secuencial preliminar en visión. A continuación, dividimos los marcos fundamentales de los modelos autoregresivos visuales en tres subcategorías generales, incluyendo modelos basados en píxeles, basados en tokens y basados en escalas según la estrategia de representación. Luego exploramos las interconexiones entre los modelos autoregresivos y otros modelos generativos. Además, presentamos una categorización multifacética de los modelos autoregresivos en visión, incluyendo generación de imágenes, generación de videos, generación 3D y generación multimodal. También detallamos sus aplicaciones en diversos dominios, incluyendo dominios emergentes como la IA incorporada y la IA médica 3D, con alrededor de 250 referencias relacionadas. Finalmente, destacamos los desafíos actuales para los modelos autoregresivos en visión con sugerencias sobre posibles direcciones de investigación. También hemos creado un repositorio en Github para organizar los documentos incluidos en esta encuesta en: https://github.com/ChaofanTao/Autoregressive-Models-in-Vision-Survey.
English
Autoregressive modeling has been a huge success in the field of natural
language processing (NLP). Recently, autoregressive models have emerged as a
significant area of focus in computer vision, where they excel in producing
high-quality visual content. Autoregressive models in NLP typically operate on
subword tokens. However, the representation strategy in computer vision can
vary in different levels, i.e., pixel-level, token-level, or
scale-level, reflecting the diverse and hierarchical nature of visual data
compared to the sequential structure of language. This survey comprehensively
examines the literature on autoregressive models applied to vision. To improve
readability for researchers from diverse research backgrounds, we start with
preliminary sequence representation and modeling in vision. Next, we divide the
fundamental frameworks of visual autoregressive models into three general
sub-categories, including pixel-based, token-based, and scale-based models
based on the strategy of representation. We then explore the interconnections
between autoregressive models and other generative models. Furthermore, we
present a multi-faceted categorization of autoregressive models in computer
vision, including image generation, video generation, 3D generation, and
multi-modal generation. We also elaborate on their applications in diverse
domains, including emerging domains such as embodied AI and 3D medical AI, with
about 250 related references. Finally, we highlight the current challenges to
autoregressive models in vision with suggestions about potential research
directions. We have also set up a Github repository to organize the papers
included in this survey at:
https://github.com/ChaofanTao/Autoregressive-Models-in-Vision-Survey.Summary
AI-Generated Summary